今天,千卡GPU算力已成为大模型的起步点,万卡计算集群成为大模型训练的标配。计算规模的指数增加进一步催生了海量数据,而算力和数据的爆发式增长为用户带来诸多挑战:
如何为大模型训练提供高速、可靠的IO能力?如何高安全低成本地长期存储数据?如何满足日益严格的数据监管与合规要求?
在近日IBM举行的互联网数据与人工智能技术沙龙中,来自IBM、百度云和腾讯云的技术专家带来了他们对数据存储与AI技术的思考和实践。
从“+AI”向“AI+”的深刻跃迁
根据IBM企业高管2022-2024 AI采用度调查,2022至2024年,引入AI企业的比例预计将提升约3倍,且AI投资的回报率不容小觑:企业投资AI后平均带来的营收增长达6.3%,AI成熟度越高的企业营收增长的比例越高。
伴随着AI技术的成熟,企业从过去把AI作为附加组件嵌入业务流程,到现在将其视作支撑业务智能化、拉动增长的核心动力。
IBM大中华区存储事业部总经理吴磊形容这一转变为从“+AI”向“AI+”的跃迁。他强调,企业应通过规模化部署,把人工智能与企业应用和数据全面打通,赋能业务智能化。
作为AI领域的先行者,IBM从上个世纪90年代就开始了对人工智能领域的投资,从“深蓝”计算机到Watson系统,过去十几年IBM在AI领域写下了自己的页页篇章。近年来IBM聚焦“混合云+AI”战略,并推出Watsonx企业级 AI 与数据平台,帮助企业在跨业务场景中快速训练和部署AI能力。
吴磊表示,过去的113年里,经历了主机时代、PC机时代,到如今的混合云、人工智能与量子计算时代,IBM始终保持着创业公司的心态,不断迭代和演进。未来将继续与国内厂商深度合作,为更多企业做好技术服务。
百度云的冷数据管理新思路
与AI技术的飞速发展并行的,是数据体量的急剧膨胀,尤其是“冷数据”——那些很少被访问却必须长期存储的数据。根据百度数据冷热统计,超冷数据的占比已经超过10%。
百度智能云存储架构师侯进超表示,面对不断增长的海量数据,传统硬盘存储逐渐无法满足成本控制需求。“相比HDD盘,磁带库拥有巨大的成本优势,将超冷数据存储在磁带库里,能够显著降低存储成本。”
为此,百度云引入了Aries云存储系统。Aries磁带库架构的特点是微服务化、超大规模、多模型集成、多介质支持和面向故障设计。目前,Aries管理了数万台高密度/JBOD存储服务器,总数据量超过数十EB,单集群超过4EB。
据介绍,Aries磁带库架构的设计思路有三点:数据物理聚集写入、位置相关的取回调度和大文件头部数据放磁盘。
具体来说,数据物理聚集写入在于很多业务数据之间存在关联性,将这些有关联的数据以物理聚集的方式存储在一起,将来取回时就会更加高效。
位置相关的取回调度,则是取回数据的过程中,调度服务将处于同一位置的数据尽量一次性多取回,以提升取回效率。
磁带存储凭借其低成本和长生命周期,成为冷数据存储的理想选择,契合了备份和归档等场景的需求。而在更“热”的AI业务场景下,如何将存储技术与AI大模型结合,利用存储技术为AI应用提供高效、可扩展的基础,则是数据存储的另一个关键问题。
腾讯云COS Date Lake向智能数据湖演进
在AI应用的全链条中,从数据采集、特征工程到模型训练和推理,每个环节对数据的需求各不相同,而数据往往散落在不同的平台和系统中。
为了实现数据在不同计算平台间的自由流动,降低存储成本,简化数据的生命周期管理,数据湖成为了不可或缺的解决方案。通过统一存储,数据湖能够打破数据孤岛,为大规模AI训练提供灵活高效的数据支撑。
面向AIGC多种业务场景,腾讯云推出了对象存储COS、GooseFS产品系列和数据万象等产品,为数据集上云、模型训练、推理应用到内容智理中的数据存储提供支持,实现了高效、低成本的数据管理方案。
腾讯云对象存储高级产品经理熊建刚表示,腾讯云数据湖结合AI大模型能力,从传统的孤立数据分析和机器学习,演进到跨业务的数据融合。通过AI大模型对数据的多模态特征提取,为大数据处理、智能检索、资产管理提供了基础能力。
他进一步指出,从数据预处理到模型训练和推理的每一个环节,都需要针对不同的需求对数据湖进行加速。将数据持久化存储在COS数据湖中,训练数据按需通过数据加速服务GooseFS拉取到云上或者IDC计算端,可做到一份数据集多地训练。
此外,为了方便数据湖用户在海量数据中搜索图文内容,腾讯云还推出了万象图文大模型,通过对图片、文本多类模态的语音理解和特征抽取,建模图文之间的相似度,可实现图文检索、图像标签等应用。其多模态特征表达能力也可以扩展到文本与视频的特征提取和匹配,从而实现文本视频检索。
AI技术的持续演进,注定会带来一个充满挑战与机遇的时代。如果说AI在不断推升计算需求,那么数据存储则是在背后默默支撑这一切的基石。企业唯有不断突破现有技术瓶颈,才有可能在数据洪流到来时稳步前行。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。