今天,千卡GPU算力已成为大模型的起步点,万卡计算集群成为大模型训练的标配。计算规模的指数增加进一步催生了海量数据,而算力和数据的爆发式增长为用户带来诸多挑战:
如何为大模型训练提供高速、可靠的IO能力?如何高安全低成本地长期存储数据?如何满足日益严格的数据监管与合规要求?
在近日IBM举行的互联网数据与人工智能技术沙龙中,来自IBM、百度云和腾讯云的技术专家带来了他们对数据存储与AI技术的思考和实践。
从“+AI”向“AI+”的深刻跃迁
根据IBM企业高管2022-2024 AI采用度调查,2022至2024年,引入AI企业的比例预计将提升约3倍,且AI投资的回报率不容小觑:企业投资AI后平均带来的营收增长达6.3%,AI成熟度越高的企业营收增长的比例越高。
伴随着AI技术的成熟,企业从过去把AI作为附加组件嵌入业务流程,到现在将其视作支撑业务智能化、拉动增长的核心动力。
IBM大中华区存储事业部总经理吴磊形容这一转变为从“+AI”向“AI+”的跃迁。他强调,企业应通过规模化部署,把人工智能与企业应用和数据全面打通,赋能业务智能化。
作为AI领域的先行者,IBM从上个世纪90年代就开始了对人工智能领域的投资,从“深蓝”计算机到Watson系统,过去十几年IBM在AI领域写下了自己的页页篇章。近年来IBM聚焦“混合云+AI”战略,并推出Watsonx企业级 AI 与数据平台,帮助企业在跨业务场景中快速训练和部署AI能力。
吴磊表示,过去的113年里,经历了主机时代、PC机时代,到如今的混合云、人工智能与量子计算时代,IBM始终保持着创业公司的心态,不断迭代和演进。未来将继续与国内厂商深度合作,为更多企业做好技术服务。
百度云的冷数据管理新思路
与AI技术的飞速发展并行的,是数据体量的急剧膨胀,尤其是“冷数据”——那些很少被访问却必须长期存储的数据。根据百度数据冷热统计,超冷数据的占比已经超过10%。
百度智能云存储架构师侯进超表示,面对不断增长的海量数据,传统硬盘存储逐渐无法满足成本控制需求。“相比HDD盘,磁带库拥有巨大的成本优势,将超冷数据存储在磁带库里,能够显著降低存储成本。”
为此,百度云引入了Aries云存储系统。Aries磁带库架构的特点是微服务化、超大规模、多模型集成、多介质支持和面向故障设计。目前,Aries管理了数万台高密度/JBOD存储服务器,总数据量超过数十EB,单集群超过4EB。
据介绍,Aries磁带库架构的设计思路有三点:数据物理聚集写入、位置相关的取回调度和大文件头部数据放磁盘。
具体来说,数据物理聚集写入在于很多业务数据之间存在关联性,将这些有关联的数据以物理聚集的方式存储在一起,将来取回时就会更加高效。
位置相关的取回调度,则是取回数据的过程中,调度服务将处于同一位置的数据尽量一次性多取回,以提升取回效率。
磁带存储凭借其低成本和长生命周期,成为冷数据存储的理想选择,契合了备份和归档等场景的需求。而在更“热”的AI业务场景下,如何将存储技术与AI大模型结合,利用存储技术为AI应用提供高效、可扩展的基础,则是数据存储的另一个关键问题。
腾讯云COS Date Lake向智能数据湖演进
在AI应用的全链条中,从数据采集、特征工程到模型训练和推理,每个环节对数据的需求各不相同,而数据往往散落在不同的平台和系统中。
为了实现数据在不同计算平台间的自由流动,降低存储成本,简化数据的生命周期管理,数据湖成为了不可或缺的解决方案。通过统一存储,数据湖能够打破数据孤岛,为大规模AI训练提供灵活高效的数据支撑。
面向AIGC多种业务场景,腾讯云推出了对象存储COS、GooseFS产品系列和数据万象等产品,为数据集上云、模型训练、推理应用到内容智理中的数据存储提供支持,实现了高效、低成本的数据管理方案。
腾讯云对象存储高级产品经理熊建刚表示,腾讯云数据湖结合AI大模型能力,从传统的孤立数据分析和机器学习,演进到跨业务的数据融合。通过AI大模型对数据的多模态特征提取,为大数据处理、智能检索、资产管理提供了基础能力。
他进一步指出,从数据预处理到模型训练和推理的每一个环节,都需要针对不同的需求对数据湖进行加速。将数据持久化存储在COS数据湖中,训练数据按需通过数据加速服务GooseFS拉取到云上或者IDC计算端,可做到一份数据集多地训练。
此外,为了方便数据湖用户在海量数据中搜索图文内容,腾讯云还推出了万象图文大模型,通过对图片、文本多类模态的语音理解和特征抽取,建模图文之间的相似度,可实现图文检索、图像标签等应用。其多模态特征表达能力也可以扩展到文本与视频的特征提取和匹配,从而实现文本视频检索。
AI技术的持续演进,注定会带来一个充满挑战与机遇的时代。如果说AI在不断推升计算需求,那么数据存储则是在背后默默支撑这一切的基石。企业唯有不断突破现有技术瓶颈,才有可能在数据洪流到来时稳步前行。
好文章,需要你的鼓励
在“PEC 2025 AI创新者大会暨第二届提示工程峰会”上,一场以“AIGC创作新范式——双脑智能时代:心智驱动的生产力变革”为主题的分论坛,成为现场最具张力的对话空间。
人民大学团队开发了Search-o1框架,让AI在推理时能像侦探一样边查资料边思考。系统通过检测不确定性词汇自动触发搜索,并用知识精炼模块从海量资料中提取关键信息无缝融入推理过程。在博士级科学问题测试中,该系统整体准确率达63.6%,在物理和生物领域甚至超越人类专家水平,为AI推理能力带来突破性提升。
Linux Mint团队计划加快发布周期,在未来几个月推出两个新版本。LMDE 7代号"Gigi"基于Debian 13开发,将包含libAdapta库以支持Gtk4应用的主题功能。新版本将停止提供32位版本支持。同时Cinnamon桌面的Wayland支持持续改进,在菜单、状态小程序和键盘输入处理方面表现更佳,有望成为完整支持Wayland的重要桌面环境之一。
Anthropic研究团队开发的REINFORCE++算法通过采用全局优势标准化解决了AI训练中的"过度拟合"问题。该算法摒弃了传统PPO方法中昂贵的价值网络组件,用统一评价标准替代针对单个问题的局部基准,有效避免了"奖励破解"现象。实验显示,REINFORCE++在处理新问题时表现更稳定,特别是在长文本推理和工具集成场景中展现出优异的泛化能力,为开发更实用可靠的AI系统提供了新思路。