今天,千卡GPU算力已成为大模型的起步点,万卡计算集群成为大模型训练的标配。计算规模的指数增加进一步催生了海量数据,而算力和数据的爆发式增长为用户带来诸多挑战:
如何为大模型训练提供高速、可靠的IO能力?如何高安全低成本地长期存储数据?如何满足日益严格的数据监管与合规要求?
在近日IBM举行的互联网数据与人工智能技术沙龙中,来自IBM、百度云和腾讯云的技术专家带来了他们对数据存储与AI技术的思考和实践。
从“+AI”向“AI+”的深刻跃迁
根据IBM企业高管2022-2024 AI采用度调查,2022至2024年,引入AI企业的比例预计将提升约3倍,且AI投资的回报率不容小觑:企业投资AI后平均带来的营收增长达6.3%,AI成熟度越高的企业营收增长的比例越高。
伴随着AI技术的成熟,企业从过去把AI作为附加组件嵌入业务流程,到现在将其视作支撑业务智能化、拉动增长的核心动力。
IBM大中华区存储事业部总经理吴磊形容这一转变为从“+AI”向“AI+”的跃迁。他强调,企业应通过规模化部署,把人工智能与企业应用和数据全面打通,赋能业务智能化。
作为AI领域的先行者,IBM从上个世纪90年代就开始了对人工智能领域的投资,从“深蓝”计算机到Watson系统,过去十几年IBM在AI领域写下了自己的页页篇章。近年来IBM聚焦“混合云+AI”战略,并推出Watsonx企业级 AI 与数据平台,帮助企业在跨业务场景中快速训练和部署AI能力。
吴磊表示,过去的113年里,经历了主机时代、PC机时代,到如今的混合云、人工智能与量子计算时代,IBM始终保持着创业公司的心态,不断迭代和演进。未来将继续与国内厂商深度合作,为更多企业做好技术服务。
百度云的冷数据管理新思路
与AI技术的飞速发展并行的,是数据体量的急剧膨胀,尤其是“冷数据”——那些很少被访问却必须长期存储的数据。根据百度数据冷热统计,超冷数据的占比已经超过10%。
百度智能云存储架构师侯进超表示,面对不断增长的海量数据,传统硬盘存储逐渐无法满足成本控制需求。“相比HDD盘,磁带库拥有巨大的成本优势,将超冷数据存储在磁带库里,能够显著降低存储成本。”
为此,百度云引入了Aries云存储系统。Aries磁带库架构的特点是微服务化、超大规模、多模型集成、多介质支持和面向故障设计。目前,Aries管理了数万台高密度/JBOD存储服务器,总数据量超过数十EB,单集群超过4EB。
据介绍,Aries磁带库架构的设计思路有三点:数据物理聚集写入、位置相关的取回调度和大文件头部数据放磁盘。
具体来说,数据物理聚集写入在于很多业务数据之间存在关联性,将这些有关联的数据以物理聚集的方式存储在一起,将来取回时就会更加高效。
位置相关的取回调度,则是取回数据的过程中,调度服务将处于同一位置的数据尽量一次性多取回,以提升取回效率。
磁带存储凭借其低成本和长生命周期,成为冷数据存储的理想选择,契合了备份和归档等场景的需求。而在更“热”的AI业务场景下,如何将存储技术与AI大模型结合,利用存储技术为AI应用提供高效、可扩展的基础,则是数据存储的另一个关键问题。
腾讯云COS Date Lake向智能数据湖演进
在AI应用的全链条中,从数据采集、特征工程到模型训练和推理,每个环节对数据的需求各不相同,而数据往往散落在不同的平台和系统中。
为了实现数据在不同计算平台间的自由流动,降低存储成本,简化数据的生命周期管理,数据湖成为了不可或缺的解决方案。通过统一存储,数据湖能够打破数据孤岛,为大规模AI训练提供灵活高效的数据支撑。
面向AIGC多种业务场景,腾讯云推出了对象存储COS、GooseFS产品系列和数据万象等产品,为数据集上云、模型训练、推理应用到内容智理中的数据存储提供支持,实现了高效、低成本的数据管理方案。
腾讯云对象存储高级产品经理熊建刚表示,腾讯云数据湖结合AI大模型能力,从传统的孤立数据分析和机器学习,演进到跨业务的数据融合。通过AI大模型对数据的多模态特征提取,为大数据处理、智能检索、资产管理提供了基础能力。
他进一步指出,从数据预处理到模型训练和推理的每一个环节,都需要针对不同的需求对数据湖进行加速。将数据持久化存储在COS数据湖中,训练数据按需通过数据加速服务GooseFS拉取到云上或者IDC计算端,可做到一份数据集多地训练。
此外,为了方便数据湖用户在海量数据中搜索图文内容,腾讯云还推出了万象图文大模型,通过对图片、文本多类模态的语音理解和特征抽取,建模图文之间的相似度,可实现图文检索、图像标签等应用。其多模态特征表达能力也可以扩展到文本与视频的特征提取和匹配,从而实现文本视频检索。
AI技术的持续演进,注定会带来一个充满挑战与机遇的时代。如果说AI在不断推升计算需求,那么数据存储则是在背后默默支撑这一切的基石。企业唯有不断突破现有技术瓶颈,才有可能在数据洪流到来时稳步前行。
好文章,需要你的鼓励
这项研究揭示了熵最小化作为单独目标可显著提升大型语言模型在数学、物理和编程任务上的推理能力,无需任何标记数据。伊利诺伊大学厄巴纳-香槟分校的研究团队提出三种方法:无监督微调(EM-FT)、基于熵奖励的强化学习(EM-RL)和推理时优化(EM-INF)。实验表明,这些方法在某些任务上甚至超过需要大量标记数据的先进技术,证明许多预训练模型已具备被低估的推理能力,只需简单的熵最小化即可激发。
2025年5月19日,新加坡国立大学研究团队发表最新研究Thinkless,就像是给"内耗"的AI朋友配了一个心理咨询师,教会它什么时候该深度思考,什么时候可以快速回答。
这篇文章介绍了马里兰大学研究团队开发的BLEUBERI方法,该方法惊人地发现被认为过于简单的BLEU评分系统在指导大语言模型遵循指令方面非常有效。研究表明,当使用高质量参考答案时,BLEU与人类偏好的一致率可达74.2%,几乎与复杂的奖励模型相当。基于此,团队开发的BLEUBERI方法在多个基准测试中表现与传统奖励模型方法相当,且在事实准确性方面表现更佳。这一发现为语言模型对齐提供了更经济高效的途径,无需大量人类标注数据和复杂的奖励模型训练。
VerifyBench是首个专门评估大语言模型基于参考的奖励系统的基准测试,填补了现有奖励评估基准的关键空白。由浙江大学、美团等机构联合开发,包含VerifyBench和更具挑战性的VerifyBench-Hard两个数据集。研究发现虽然大型模型在标准案例上表现出色,但在复杂案例上仍有显著改进空间。该基准测试通过精心构建的数据集和评估框架,为提升大模型推理能力提供了标准化评估工具,对强化学习训练具有重要意义。