关于AI和机器学习的讨论已经铺天盖地了,杂志文章和电视新闻也在不停地谈论这些技能潜在革新能力。但是我们必须警惕,AI和机器学习对数据存储的需求是无限的。它们消耗了大量的存储空间,而且对吞吐量也有无限的需求。
IDC最新的报告显示,存储收入在逐步萎缩,AI和机器学习的发展对于存储供应商来说是一个好消息。但是行业产能将会被无限扩大,正如分析引擎将会与数据存储库产品争夺一样,将会以他们希望的速度来提供信息。
DataDirect Networks产品营销高级总监Laura Shepard表示,机器学习的应用会很快地消耗掉基础数据存取能力和管理基础设施。原型和一代机器学习基础设施通常建立在现存的企业存储之上,或者有团队会推出自己的白盒或者混合开源的国产、商用工具和应用程序。
因此, 对于大多数成功的机器学习项目来说,随着规模增加都将会遇到问题;对于AI来书,大多数数据可以产生一个更好的结果。这也推动了机器学习项目的不断增长。
Shepard表示,规模增加和减少的故障表明,如果不能以所需的速度提供数据访问,不能扩大数据搜索的速度,那么就不能使得数据存储变得更加简单和具有成本效益。任何失败都会导致整个项目的失败,因为如果不能提升输入,或者增加机器学习网络的深度,将就不能提高输出的规模。
无法规模的数据转换,以改善调查结果,并无法大规模的数据存储在一个脚印,很容易或具有成本效益的管理。任何这些失败可能脱轨的整体方案的进步,因为如果你不能增长你的投入或增加你的深度学习网络的深度,你不能扩大你的输出,说谢巴德。
Shepard认为,当这种情况发生的时候,我们看到第一代基础设施开始有压力了。
机会来临
但是对于一些人的挑战,对于另一些人是机会。随着AI和机器学习应用的增长,它将吸引越来越多的创业公司来解决涉及的更多问题。
IT Brand Pulse高级分析师Frank Berry表示,管理数据中心基础设施一直是一个需要积极部署的事情,并需要走在业务需求的前面。机器学习的目的是自动获取更高的存储能力、更加高可用的服务水平(减少每存储单元所需管理员数)和更好的性能。
Zadara Storage的市场副总监Kevin Liebl继续深入探讨了这个话题。他相信正如自动驾驶汽车一样,AI将让数据存储具有自我管理的能力和自动驾驭数据中心的能力。
自动化将会大大增加管理员能够管理的机器数量,当服务器完全配备了分析和自动化服务管理软件的时候,一名管理员能够管理的服务器数量将会从今天的500台增加到未来的20,000台。Liebl认为,这种管理方式将会让存储管理更加简单,花费更少的时间,并且更加有效率。
Liebl还补充到,存储是数据中心自我运行的中心,因为所有的这种自动化需要记录所有的活动,当然,这种记录将会产生数据。随着云计算、移动化和IOT、社交媒体和分析的发展,数据将会大规模的增长。这就是为什么所有的数据容量都将继续以没两年翻一倍的速度增长。
Liebl 表示,AI在存储行业的最大需求可能主要在于存储管理能力,这让系统能够自动处理数据的急剧增长。
正如个人电脑重塑了业务世界一样,AI和机器学习将会以同样的方式来影响存储行业的发展。正如个人电脑提高了个人应用能力到大规模企业数据库和自动程序能力一样,AI和机器学习很可能由消费者喜欢的功能演变为全方位的数据驱动程序,这将推动全球企业的发展。
Cloudian公司的CEO Michael Tso表示,未来20年,公司将会演变成AI辅助的组织。在那样的世界里,数据将促进协作,机器将会收集信息、学习并帮助人类匹配客户需求来进行实时决策。
这样的情况现在已经存在了。像亚马逊这样的购物网站就使用了这种技术。同样的,广告反馈系统越来越善于为网站用户提供基于访问的广告推广服务。Cloudian也使用了数字广告牌,这可以匹配个性化的驾驶员和他们的汽车,为其推送合适的广告。
Tso认为,在存储行业,这就意味着,供应商不得不保留大规模的非结构化数据来训练机器。一旦机器可以进行自我学习,他们将能够收集和生产新的大量的数据来存储、标记和分析。
在我们的受访者中,绝大多数专家都提到了自动驾驶汽车。自动驾驶汽车被描述为通过大量的传感设备来"读取"周围环境,这跟准确的地图数据有点类似。由此来觉得如何驾驶、刹车和加速等。这样所需存储的复杂性是显而易见的。摄像机和雷达等设备产生的数据每秒有10GB之多。所有这些数据都要被压缩和处理。通过自动驾驶汽车的摄像机和雷达能够获得高清地图数据。这是获得准确汽车汽车位置的关键所在。这些高清地图在标准地图之上,额外添加了车道标线、限制和标志。 所有这些数据以每秒10s+GB的速度产生。这些数据乘以运动量再乘以汽车数量,其数据量将是非常非常巨大的。
另外,每辆汽车还要记录一些驾驶数据,并保存几天到几个月不等---这取决于OEM和监管要求。这是非常重要的,因为即使这些数据上传到云,本地还是要保存这些数据的。数据的质量还仅仅只是个开始,这些数据包括每辆车和通过系统产生的,这些数据将会决定汽车的安全行驶和高效运行。所有类型的AI和机器学习系统都将获取这些信息,并把信息转变为操作指导。这就意味着存储系统必须能够以汽车的行驶速度来存储、转移和处理数据。
StorageIO Group 的分析师Greg Schulz表示,这些现有数据的价值还有很多未被挖掘出来,AI还将带来未开发的和未知的价值。
存储增强
但是这不是一条独木桥。这也不仅仅是让存储如何存储更多数据、处理更快、让分析引擎更快的问题,还有相互之间的影响---AI和机器学习将会给存储技术带来更多的关注,并将促进存储技术的发展。
Schulz 表示,AI和其他算法能够让分析被用于管理数据、存储,甚至会涉及到数据基础设施资源。这意味着,这将超越基本分析和洞察力意识报告,以及基于系统或软件管理的传统政策。
他提到要注意AI和机器学习对CPU处理能力需求的增加和存储容量的增加,同时还会增加---把数据转变为信息的工具---的需求。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。