生成式AI时代,企业对于AI的关注已从通用大模型转移到行业生产场景中,只有当大模型和企业真实数据结合,才能发挥出生成式AI最大的价值。
数据地位因而被再次提高,存储在企业中的优先级也被进一步提升。
为什么这么说,一方面算力越来越快,存力跟不上,经常导致算力资源空转浪费,一方面数据质量是喂养模型生成的关键,所以存储所承载数据的质量至关重要。
中科曙光存储产品事业部运营总监石静看到,加速,是AI数据存储的核心需求。
在性能强、高IOPS等生成式场景成为常态的情况下,曙光存储也在近期发布升级ParaStor分布式全闪存储产品,进一步强化了在AI应用中的性能表现。
最懂AI的加速存储方案
赛迪发布《2024中国分布式存储市场研究报告》显示,曙光存储位居中国AI存储市场第一。国家信息中心随后发布的《智能算力产业发展白皮书》,也重磅推介曙光存储面向推出的“智存”产品,点赞其面向人工智能场景的数据存储能力。
双重权威认可的背后,是因为曙光存储抓住了AI数据存储的核心需求——加速。
在以AI大模型为代表的人工智能场景中,加速是数据存储的核心价值,具体路径是通过缩短数据读写时间,提升AI大模型的训练效率,减少算力的空转等待时间,从而降低AI成本。
ParaStor分布式全闪存储被称为是最懂AI的存储产品,助力AI整体表现提升20倍以上。业界首创五级加速方案,让数据无需等待,快,还能更快,包括本地内存加速、BurstBuffer加速层、XDS双栈兼容,减少CPU中断、网络加速(RDMA-Based)、存储节点高速层( NVMe SSD-Based )。
石静认为,性能提升20倍以上的关键技术创新,主要有两个核心:最强的数据底座和最佳的AI应用加速套件。
数据底座:通过优化硬件性能,如利用高速网络(400G NDR IB卡或RoCE网络)与NVMe SSD闪存的协同作用,实现存储系统的最高性能,使存储能够在不改变应用层操作的情况下发挥最佳效能。
AI应用加速套件:采用五级加速技术,从数据流动路径的不同节点上加速I/O通路。第一层利用计算节点的本地内存加速热点数据,降低延时至纳秒级;第二层:在GPU服务器本地的NVMe盘上缓存关键数据,避免跨网络访问,显著提升小文件读写性能;第三层:在网络层采用RDMA技术,充分利用网络带宽;第四层:优化NVMe全闪存性能,提升存储系统的整体效能;第五层:通过GPU直通存储,减少CPU负载,实现GPU与存储的直接交互,进一步缩短I/O通路和降低延时。
最近曙光存储凭借ParaStor分布式存储强大的性能优势,及在多个AI创新业务场景中的优秀实践,荣获2024年度闪存风云榜“2024年度AI与闪存融合应用创新奖“。
具体到衡量存储支撑AI算力的性能上,主要有两个指标:第一,带宽,体现在每一个节点,每秒钟能够提供的吞吐量。ParaStor分布式全闪产品,单个节点可以做到最高150GB/s带宽;第二,IOPS(每秒输入输出操作数),智存ParaStor产品,每秒钟可以给用户提供320万IOPS。
“整个I/O通路上存储的每一个环节都不应该成为短板。”石静强调,存储必须快速、高效,并能应对大模型时代的复杂需求,才能支撑AI的高速发展。
所以在生成式AI时代,存储产业面临三个关键要求:
极致性能:随着模型参数量的指数级增加,计算复杂度提升,对存储性能提出了极高要求。存储必须具备足够的带宽和高并发IOPS能力,确保在训练和推理过程中不会成为计算的瓶颈。
业务契合度:随着业务需求的个性化发展,存储系统需能够与具体应用相结合,进行针对性的调优和定制开发,以支持从通用大模型到垂直大模型的转变。
数据安全:存储系统不仅需要保障数据的完整性和可靠性,还需提供精细的权限管理和审计功能,防止数据篡改和未授权访问,确保数据在整个I/O通路中的安全。
加速AI的多层次优化逻辑
AI工作流程主要被分为训练和推理的两大主要阶段,具体又可以细分为数据导入清洗、预处理、训练、推理、数据归档,曙光深入分析五个阶段对存储系统的不同需求,并进行了针对性的优化,以更好地支持AI应用的高效运行。
数据导入与清洗阶段:存储系统需要具备多元数据异构管理能力。这意味着存储系统必须支持多种协议,并且能够进行协议互通,以便高效地处理和管理不同来源的数据。
数据预处理阶段:需要将数据读入系统,执行单流读操作后再进行分块处理并实现随机访问,对存储系统的IOPS提出较高要求。
数据训练阶段:存储系统需要保障高IOPS和低延时,以应对频繁的随机访问需求,加速训练数据的读取和处理。此外为了防止训练过程中断,需要定期执行Checkpoint操作,要求存储系统具备高带宽支持。
数据推理阶段:会涉及分发、低延时、高并发等需求,存储系统必须能够快速响应并处理多个并发请求,以满足AI推理的实时性要求。
数据归档阶段:需要具备全生命周期管理能力,从热存储、温存储到冷存储,确保数据在整个生命周期中的有效管理和归档。这要求存储系统能够在不同介质之间实现数据的自由流动,并根据不同需求动态调整存储策略。
曙光存储会基于这一框架进行需求分析,并进一步做深度优化。比如在AI模型训练过程中,对于存储挑战最大的是伴随很多随机原数据访问,并有较高IOPS及低时延需求。曙光存储通过了解客户具体的时延要求和IOPS目标,进一步分析调整原数据布局、优化数据分发策略、数据通讯,结合存储软件特点,并与GPU性能表现相结合,对整体系统进行综合优化。
整个分析思路从宏观需求分析逐步细化到具体技术调整,最终总结出多层次的优化策略,为用户提供更高效的AI存储解决方案。
针对当前十分火爆的“智元机器人”,考虑到其对于低时延、高性能和智能化运维的三个关键需求,曙光存储设计了一套专门的解决方案。低时延方面,通过全闪分布式存储、NVMe盘和RoCE高速网络,显著降低数据传输时延。同时采用精细化资源调配策略,优先处理紧急请求,提升系统响应速度;高性能方面,提供最强的数据底座与最佳应用套件;智能化运维方面,引入AI进行故障预测和智能运维管理,确保系统在用户前端呈现出最佳状态,提升用户体验。
生成式AI时代,存储已经不仅是数据的容器,更成为驱动企业创新与发展的关键引擎。曙光存储通过不断优化和创新,为AI应用提供了强大而高效的支持。随着AI技术的不断进步,存储的角色将更加重要,曙光也将进一步助力企业在智能化转型中实现突破,开创数字经济新篇章。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。