关于AI和机器学习的讨论已经铺天盖地了,杂志文章和电视新闻也在不停地谈论这些技能潜在革新能力。但是我们必须警惕,AI和机器学习对数据存储的需求是无限的。它们消耗了大量的存储空间,而且对吞吐量也有无限的需求。
IDC最新的报告显示,存储收入在逐步萎缩,AI和机器学习的发展对于存储供应商来说是一个好消息。但是行业产能将会被无限扩大,正如分析引擎将会与数据存储库产品争夺一样,将会以他们希望的速度来提供信息。
DataDirect Networks产品营销高级总监Laura Shepard表示,机器学习的应用会很快地消耗掉基础数据存取能力和管理基础设施。原型和一代机器学习基础设施通常建立在现存的企业存储之上,或者有团队会推出自己的白盒或者混合开源的国产、商用工具和应用程序。
因此, 对于大多数成功的机器学习项目来说,随着规模增加都将会遇到问题;对于AI来书,大多数数据可以产生一个更好的结果。这也推动了机器学习项目的不断增长。
Shepard表示,规模增加和减少的故障表明,如果不能以所需的速度提供数据访问,不能扩大数据搜索的速度,那么就不能使得数据存储变得更加简单和具有成本效益。任何失败都会导致整个项目的失败,因为如果不能提升输入,或者增加机器学习网络的深度,将就不能提高输出的规模。
无法规模的数据转换,以改善调查结果,并无法大规模的数据存储在一个脚印,很容易或具有成本效益的管理。任何这些失败可能脱轨的整体方案的进步,因为如果你不能增长你的投入或增加你的深度学习网络的深度,你不能扩大你的输出,说谢巴德。
Shepard认为,当这种情况发生的时候,我们看到第一代基础设施开始有压力了。
机会来临
但是对于一些人的挑战,对于另一些人是机会。随着AI和机器学习应用的增长,它将吸引越来越多的创业公司来解决涉及的更多问题。
IT Brand Pulse高级分析师Frank Berry表示,管理数据中心基础设施一直是一个需要积极部署的事情,并需要走在业务需求的前面。机器学习的目的是自动获取更高的存储能力、更加高可用的服务水平(减少每存储单元所需管理员数)和更好的性能。
Zadara Storage的市场副总监Kevin Liebl继续深入探讨了这个话题。他相信正如自动驾驶汽车一样,AI将让数据存储具有自我管理的能力和自动驾驭数据中心的能力。
自动化将会大大增加管理员能够管理的机器数量,当服务器完全配备了分析和自动化服务管理软件的时候,一名管理员能够管理的服务器数量将会从今天的500台增加到未来的20,000台。Liebl认为,这种管理方式将会让存储管理更加简单,花费更少的时间,并且更加有效率。
Liebl还补充到,存储是数据中心自我运行的中心,因为所有的这种自动化需要记录所有的活动,当然,这种记录将会产生数据。随着云计算、移动化和IOT、社交媒体和分析的发展,数据将会大规模的增长。这就是为什么所有的数据容量都将继续以没两年翻一倍的速度增长。
Liebl 表示,AI在存储行业的最大需求可能主要在于存储管理能力,这让系统能够自动处理数据的急剧增长。
正如个人电脑重塑了业务世界一样,AI和机器学习将会以同样的方式来影响存储行业的发展。正如个人电脑提高了个人应用能力到大规模企业数据库和自动程序能力一样,AI和机器学习很可能由消费者喜欢的功能演变为全方位的数据驱动程序,这将推动全球企业的发展。
Cloudian公司的CEO Michael Tso表示,未来20年,公司将会演变成AI辅助的组织。在那样的世界里,数据将促进协作,机器将会收集信息、学习并帮助人类匹配客户需求来进行实时决策。
这样的情况现在已经存在了。像亚马逊这样的购物网站就使用了这种技术。同样的,广告反馈系统越来越善于为网站用户提供基于访问的广告推广服务。Cloudian也使用了数字广告牌,这可以匹配个性化的驾驶员和他们的汽车,为其推送合适的广告。
Tso认为,在存储行业,这就意味着,供应商不得不保留大规模的非结构化数据来训练机器。一旦机器可以进行自我学习,他们将能够收集和生产新的大量的数据来存储、标记和分析。
在我们的受访者中,绝大多数专家都提到了自动驾驶汽车。自动驾驶汽车被描述为通过大量的传感设备来"读取"周围环境,这跟准确的地图数据有点类似。由此来觉得如何驾驶、刹车和加速等。这样所需存储的复杂性是显而易见的。摄像机和雷达等设备产生的数据每秒有10GB之多。所有这些数据都要被压缩和处理。通过自动驾驶汽车的摄像机和雷达能够获得高清地图数据。这是获得准确汽车汽车位置的关键所在。这些高清地图在标准地图之上,额外添加了车道标线、限制和标志。 所有这些数据以每秒10s+GB的速度产生。这些数据乘以运动量再乘以汽车数量,其数据量将是非常非常巨大的。
另外,每辆汽车还要记录一些驾驶数据,并保存几天到几个月不等---这取决于OEM和监管要求。这是非常重要的,因为即使这些数据上传到云,本地还是要保存这些数据的。数据的质量还仅仅只是个开始,这些数据包括每辆车和通过系统产生的,这些数据将会决定汽车的安全行驶和高效运行。所有类型的AI和机器学习系统都将获取这些信息,并把信息转变为操作指导。这就意味着存储系统必须能够以汽车的行驶速度来存储、转移和处理数据。
StorageIO Group 的分析师Greg Schulz表示,这些现有数据的价值还有很多未被挖掘出来,AI还将带来未开发的和未知的价值。
存储增强
但是这不是一条独木桥。这也不仅仅是让存储如何存储更多数据、处理更快、让分析引擎更快的问题,还有相互之间的影响---AI和机器学习将会给存储技术带来更多的关注,并将促进存储技术的发展。
Schulz 表示,AI和其他算法能够让分析被用于管理数据、存储,甚至会涉及到数据基础设施资源。这意味着,这将超越基本分析和洞察力意识报告,以及基于系统或软件管理的传统政策。
他提到要注意AI和机器学习对CPU处理能力需求的增加和存储容量的增加,同时还会增加---把数据转变为信息的工具---的需求。
好文章,需要你的鼓励
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。