“容量”, 是希捷中国区产品部总监刘嘉从过去两年生成式AI发展中观察到客户对存储的首要需求。
“尽管AI还未完全成熟,但其推动力已经开始显现,存储需求回升明显。”刘嘉说。24T、30T的容量增长已成为共识,接下来则是对性能的更高要求。
固态硬盘性能更高,机械硬盘高容量和低成本,也成为新一轮AI浪潮的一种选择。2024财年希捷发货量显著增长,特别是企业级需求占比达到80%左右,推动了单盘容量的提升,尤其是20TB以上的大容量硬盘需求,实现性能与成本的平衡已经成为企业下一阶段重点考虑的方向。
希捷中国区产品部总监刘嘉
生成式AI下的存储选择
生成式AI席卷而来,不同于最直观的算力,存储能做点什么?希捷从中看到了三个影响存储的趋势。
第一,数据生产加速:IDC报告数据显示,2023年中国大数据市场规模达179.3亿元人民币,相比2022年增长24.6%。希捷认为到2028年数据生产都会处在加速的状态,一个原因是生产数据的内容越来越丰富,文字、视频、文生内容,另一个原因是更多的数据需要留存,预计到2028年,生成式AI将产生约100ZB的数据。
第二,AI对存储的影响:数据生产与数据存储是两个过程,相比之前数据生成速度提升,存储需求存在一定的滞后性。过去一年多企业的AI投资主要集中在算力、模型层面,接下来,随着数据的增长,存储需求也将显著提升。
第三,存储介质的选择:随着AI带动GPU和内存价格上涨,固态硬盘和机械硬盘的单TB价格比正在增大。过去一年中,固态硬盘价格增速快于机械硬盘。除了AI训练需要的固态硬盘,很多客户还会选择在性价比和总拥有成本(TCO)上更具优势的机械硬盘。
随着生成式AI的快速崛起,存储的角色变得愈发关键。希捷希望把握数据生产加速、AI对存储需求的滞后性、存储介质选择三大趋势,提供相应的解决方案。
在大模型的训练过程中,存储会参与到多个环节中。刘嘉认为,机械硬盘也可以在这些环节提供相应的支撑。
模型文件:在训练开始时,模型文件会直接存储在GPU集群中,文件大小从几百MB到几个TB不等。
checkpoint(检查点):训练过程中会产生临时保存的数据(checkpoint),最初很多企业使用性能较高的固态硬盘存储这些数据,同时成本也较高。现在企业发现可以将不常读取的checkpoint数据转移到机械硬盘降低成本。
模型版本:当模型训练多个版本时,会有不同版本的模型数据保存,由于存储对性能要求较低,部分企业选择使用机械硬盘。
生成数据:通过文生图片、视频等生成的数据大概率会存储在机械硬盘上,特别是在模型稳定后,生成数据更加丰富且留存时间更长,进一步优化存储成本可以使用机械硬盘。
存储进入大容量时代
希捷一直是机械硬盘巨头,从2024年财报显示,希捷实现 65.51 亿美元营收,其中毛利率为23.4%,较上一年度的18.3%有了明显的提升,回归盈利通道。
机械硬盘还会是希捷未来的主阵地,刘嘉认为,企业90%的数据存储在企业级硬盘和云端,服务好这部分市场非常关键。
同时,希捷的另一个重点是持续提升容量、降低功耗,提高每TB的性能,以满足生成式AI的需求。希捷还在积极评估与AI相关的新机会,旨以适应日益增长的AI应用和负载需求。
通过对市场需求的观察,希捷将客户分为三类:
优化工作负载的客户:这类客户看中机械硬盘的大容量和低成本优势。虽然机械硬盘在随机读写性能上和固态硬盘比相差10-20万,但顺序读写上每秒能达到250M。基于这些特性在业务层将工作负载顺序化,将顺序读写任务分配给机械硬盘,随机读写任务则转移到闪存上,降低了总拥有成本(TCO)。
停留在固定容量的客户:有些客户使用的机械硬盘容量停留在12TB左右,因更高容量的硬盘性能不理想,仍然选择机械硬盘,因为价格较低,且未来随着磁密度的提升,这类容量也可能有进一步的改进空间。
尝试双磁臂硬盘的客户:采用双磁臂硬盘技术在增加容量的同时可以保持单TB的性能不变,适用于对IO要求较高的业务场景,如块存储、邮件服务器。双磁臂硬盘相比单磁臂硬盘价格略高,但性能提升显著,是一种平衡成本与性能的选择。
希捷已经提供了包括银河Exos系列大容量机械硬盘、希捷雷霆Nytro系列固态硬盘,以及Mozaic 3+(魔彩盒3+)平台等企业级数据存储解决方案来满足不同客户的需求。其中Mozaic 3+(魔彩盒3+)带来的30TB突破,单盘片容量达到了3TB,未来单碟容量还将达到4TB、5TB。
随着存储持续在AI领域发挥重要作用,更高的面密度和高容量也将成为决战AI时代的关键。
好文章,需要你的鼓励
上海交通大学研究团队利用影响函数揭示了数据特征如何刺激大型语言模型的数学和代码推理能力。研究发现高难度数学问题能同时提升数学和代码推理,而低难度编程任务对代码推理最有效。基于此,他们提出了"任务难度翻转"策略,使模型在AIME24准确率翻倍至20%。细粒度分析还显示,探索性思维行为对推理有积极影响,而数学推理偏好逻辑连接词,代码推理则强调结构化语法。这些发现为优化AI训练数据提供了重要指导。
本研究提出了"能力-难度对齐采样"方法(CDAS),革新了大型语言模型强化学习训练中的数据采样策略。与传统方法不同,CDAS通过聚合历史表现差异实现更稳定的问题难度估计,并将模型能力与问题难度动态匹配。在多个数学推理基准测试中,CDAS达到了46.77%的最高平均准确率,同时比竞争策略提高了2.33倍的计算效率。研究还证明了CDAS在代码生成任务和更大型模型上的有效性,为提升大型语言模型的推理能力提供了高效可靠的新方法。
InfantAgent-Next是一款突破性的多模态通用型AI助手,能通过文本、图像、音频和视频与计算机进行交互。不同于现有方法,它采用高度模块化架构,将基于工具和纯视觉的代理技术融为一体,让不同模型能逐步协作解决分散任务。在OSWorld视觉测试中达到7.27%的准确率,超越Claude-Computer-Use;同时在代码处理基准SWE-Bench和通用任务平台GAIA上也表现出色。其开源设计不仅提供了丰富工具集,还优化了鼠标点击定位和文件编辑功能,为AI自动操作计算机开创了新范式。
KAIST等机构研究团队提出的"覆盖原则"框架揭示了大语言模型在组合泛化能力上的基本局限。研究表明,依赖模式匹配的模型只能泛化到那些可以通过替换功能等价片段到达的输入。实验证实,两步推理任务的训练数据需求与词表大小成二次方增长,且增加模型参数并不改善这种关系;路径歧义任务会导致模型形成上下文依赖的表示;思维链监督虽能提高效率但仍受覆盖限制。研究最终提出三类泛化机制的分类法,为理解组合推理和真正系统性泛化所需的创新提供了清晰路径。