EB级的数据洪流下，互联网企业如何突围？原创

作者：于佳卉

计算规模的指数增加进一步催生了海量数据，算力和数据的爆发式增长为用户带来诸多挑战：如何为大模型训练提供高速可靠的IO能力？如何高安全低成本地长期存储数据？

今天，千卡GPU算力已成为大模型的起步点，万卡计算集群成为大模型训练的标配。计算规模的指数增加进一步催生了海量数据，而算力和数据的爆发式增长为用户带来诸多挑战：

如何为大模型训练提供高速、可靠的IO能力？如何高安全低成本地长期存储数据？如何满足日益严格的数据监管与合规要求？

在近日IBM举行的互联网数据与人工智能技术沙龙中，来自IBM、百度云和腾讯云的技术专家带来了他们对数据存储与AI技术的思考和实践。

从“+AI”向“AI+”的深刻跃迁

根据IBM企业高管2022-2024 AI采用度调查，2022至2024年，引入AI企业的比例预计将提升约3倍，且AI投资的回报率不容小觑：企业投资AI后平均带来的营收增长达6.3%，AI成熟度越高的企业营收增长的比例越高。

伴随着AI技术的成熟，企业从过去把AI作为附加组件嵌入业务流程，到现在将其视作支撑业务智能化、拉动增长的核心动力。

IBM大中华区存储事业部总经理吴磊形容这一转变为从“+AI”向“AI+”的跃迁。他强调，企业应通过规模化部署，把人工智能与企业应用和数据全面打通，赋能业务智能化。

作为AI领域的先行者，IBM从上个世纪90年代就开始了对人工智能领域的投资，从“深蓝”计算机到Watson系统，过去十几年IBM在AI领域写下了自己的页页篇章。近年来IBM聚焦“混合云+AI”战略，并推出Watsonx企业级 AI 与数据平台，帮助企业在跨业务场景中快速训练和部署AI能力。

吴磊表示，过去的113年里，经历了主机时代、PC机时代，到如今的混合云、人工智能与量子计算时代，IBM始终保持着创业公司的心态，不断迭代和演进。未来将继续与国内厂商深度合作，为更多企业做好技术服务。

百度云的冷数据管理新思路

与AI技术的飞速发展并行的，是数据体量的急剧膨胀，尤其是“冷数据”——那些很少被访问却必须长期存储的数据。根据百度数据冷热统计，超冷数据的占比已经超过10%。

百度智能云存储架构师侯进超表示，面对不断增长的海量数据，传统硬盘存储逐渐无法满足成本控制需求。“相比HDD盘，磁带库拥有巨大的成本优势，将超冷数据存储在磁带库里，能够显著降低存储成本。”

为此，百度云引入了Aries云存储系统。Aries磁带库架构的特点是微服务化、超大规模、多模型集成、多介质支持和面向故障设计。目前，Aries管理了数万台高密度/JBOD存储服务器，总数据量超过数十EB，单集群超过4EB。

据介绍，Aries磁带库架构的设计思路有三点：数据物理聚集写入、位置相关的取回调度和大文件头部数据放磁盘。

具体来说，数据物理聚集写入在于很多业务数据之间存在关联性，将这些有关联的数据以物理聚集的方式存储在一起，将来取回时就会更加高效。

位置相关的取回调度，则是取回数据的过程中，调度服务将处于同一位置的数据尽量一次性多取回，以提升取回效率。

磁带存储凭借其低成本和长生命周期，成为冷数据存储的理想选择，契合了备份和归档等场景的需求。而在更“热”的AI业务场景下，如何将存储技术与AI大模型结合，利用存储技术为AI应用提供高效、可扩展的基础，则是数据存储的另一个关键问题。

腾讯云COS Date Lake向智能数据湖演进

在AI应用的全链条中，从数据采集、特征工程到模型训练和推理，每个环节对数据的需求各不相同，而数据往往散落在不同的平台和系统中。

为了实现数据在不同计算平台间的自由流动，降低存储成本，简化数据的生命周期管理，数据湖成为了不可或缺的解决方案。通过统一存储，数据湖能够打破数据孤岛，为大规模AI训练提供灵活高效的数据支撑。

面向AIGC多种业务场景，腾讯云推出了对象存储COS、GooseFS产品系列和数据万象等产品，为数据集上云、模型训练、推理应用到内容智理中的数据存储提供支持，实现了高效、低成本的数据管理方案。

腾讯云对象存储高级产品经理熊建刚表示，腾讯云数据湖结合AI大模型能力，从传统的孤立数据分析和机器学习，演进到跨业务的数据融合。通过AI大模型对数据的多模态特征提取，为大数据处理、智能检索、资产管理提供了基础能力。

他进一步指出，从数据预处理到模型训练和推理的每一个环节，都需要针对不同的需求对数据湖进行加速。将数据持久化存储在COS数据湖中，训练数据按需通过数据加速服务GooseFS拉取到云上或者IDC计算端，可做到一份数据集多地训练。

此外，为了方便数据湖用户在海量数据中搜索图文内容，腾讯云还推出了万象图文大模型，通过对图片、文本多类模态的语音理解和特征抽取，建模图文之间的相似度，可实现图文检索、图像标签等应用。其多模态特征表达能力也可以扩展到文本与视频的特征提取和匹配，从而实现文本视频检索。

AI技术的持续演进，注定会带来一个充满挑战与机遇的时代。如果说AI在不断推升计算需求，那么数据存储则是在背后默默支撑这一切的基石。企业唯有不断突破现有技术瓶颈，才有可能在数据洪流到来时稳步前行。

来源：至顶网存储频道

0赞

好文章，需要你的鼓励

EB级的数据洪流下，互联网企业如何突围？ 原创

来源：至顶网存储频道

2024

12/18

17:39

分享

点赞

当轻薄与智能融入日常，联想正在讲述新的终端故事

联想moto X70 Air正式发布：以极致轻薄重塑轻薄AI手机新体验

科世达、德华安顾人寿、宝洁和汇丰银行荣获2025红帽亚太创新奖

联想集团荣获拉姆·查兰管理实践奖 以AI原生组织“破局”开源降本提效

英伟达与诺基亚联手开创AI驱动6G通信平台

智能座舱的“理想”样本背后，为什么需要一朵AI云?

ChatGPT不是万能的：11个不应该依赖AI的重要领域

核能能否成为推动全球AI发展的能源伙伴？

Blue Energy计划建设燃气转核能数据中心电厂

AI公平性：如何让人工智能真正服务社区

三星浏览器登陆Windows平台，瞄准AI发展前景

紫光股份发布 2025年三季报：做强“算力×联接” 成就强劲高增长

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

EB级的数据洪流下，互联网企业如何突围？原创

联想集团荣获拉姆·查兰管理实践奖以AI原生组织“破局”开源降本提效