“容量”, 是希捷中国区产品部总监刘嘉从过去两年生成式AI发展中观察到客户对存储的首要需求。
“尽管AI还未完全成熟,但其推动力已经开始显现,存储需求回升明显。”刘嘉说。24T、30T的容量增长已成为共识,接下来则是对性能的更高要求。
固态硬盘性能更高,机械硬盘高容量和低成本,也成为新一轮AI浪潮的一种选择。2024财年希捷发货量显著增长,特别是企业级需求占比达到80%左右,推动了单盘容量的提升,尤其是20TB以上的大容量硬盘需求,实现性能与成本的平衡已经成为企业下一阶段重点考虑的方向。
希捷中国区产品部总监刘嘉
生成式AI下的存储选择
生成式AI席卷而来,不同于最直观的算力,存储能做点什么?希捷从中看到了三个影响存储的趋势。
第一,数据生产加速:IDC报告数据显示,2023年中国大数据市场规模达179.3亿元人民币,相比2022年增长24.6%。希捷认为到2028年数据生产都会处在加速的状态,一个原因是生产数据的内容越来越丰富,文字、视频、文生内容,另一个原因是更多的数据需要留存,预计到2028年,生成式AI将产生约100ZB的数据。
第二,AI对存储的影响:数据生产与数据存储是两个过程,相比之前数据生成速度提升,存储需求存在一定的滞后性。过去一年多企业的AI投资主要集中在算力、模型层面,接下来,随着数据的增长,存储需求也将显著提升。
第三,存储介质的选择:随着AI带动GPU和内存价格上涨,固态硬盘和机械硬盘的单TB价格比正在增大。过去一年中,固态硬盘价格增速快于机械硬盘。除了AI训练需要的固态硬盘,很多客户还会选择在性价比和总拥有成本(TCO)上更具优势的机械硬盘。
随着生成式AI的快速崛起,存储的角色变得愈发关键。希捷希望把握数据生产加速、AI对存储需求的滞后性、存储介质选择三大趋势,提供相应的解决方案。
在大模型的训练过程中,存储会参与到多个环节中。刘嘉认为,机械硬盘也可以在这些环节提供相应的支撑。
模型文件:在训练开始时,模型文件会直接存储在GPU集群中,文件大小从几百MB到几个TB不等。
checkpoint(检查点):训练过程中会产生临时保存的数据(checkpoint),最初很多企业使用性能较高的固态硬盘存储这些数据,同时成本也较高。现在企业发现可以将不常读取的checkpoint数据转移到机械硬盘降低成本。
模型版本:当模型训练多个版本时,会有不同版本的模型数据保存,由于存储对性能要求较低,部分企业选择使用机械硬盘。
生成数据:通过文生图片、视频等生成的数据大概率会存储在机械硬盘上,特别是在模型稳定后,生成数据更加丰富且留存时间更长,进一步优化存储成本可以使用机械硬盘。
存储进入大容量时代
希捷一直是机械硬盘巨头,从2024年财报显示,希捷实现 65.51 亿美元营收,其中毛利率为23.4%,较上一年度的18.3%有了明显的提升,回归盈利通道。
机械硬盘还会是希捷未来的主阵地,刘嘉认为,企业90%的数据存储在企业级硬盘和云端,服务好这部分市场非常关键。
同时,希捷的另一个重点是持续提升容量、降低功耗,提高每TB的性能,以满足生成式AI的需求。希捷还在积极评估与AI相关的新机会,旨以适应日益增长的AI应用和负载需求。
通过对市场需求的观察,希捷将客户分为三类:
优化工作负载的客户:这类客户看中机械硬盘的大容量和低成本优势。虽然机械硬盘在随机读写性能上和固态硬盘比相差10-20万,但顺序读写上每秒能达到250M。基于这些特性在业务层将工作负载顺序化,将顺序读写任务分配给机械硬盘,随机读写任务则转移到闪存上,降低了总拥有成本(TCO)。
停留在固定容量的客户:有些客户使用的机械硬盘容量停留在12TB左右,因更高容量的硬盘性能不理想,仍然选择机械硬盘,因为价格较低,且未来随着磁密度的提升,这类容量也可能有进一步的改进空间。
尝试双磁臂硬盘的客户:采用双磁臂硬盘技术在增加容量的同时可以保持单TB的性能不变,适用于对IO要求较高的业务场景,如块存储、邮件服务器。双磁臂硬盘相比单磁臂硬盘价格略高,但性能提升显著,是一种平衡成本与性能的选择。
希捷已经提供了包括银河Exos系列大容量机械硬盘、希捷雷霆Nytro系列固态硬盘,以及Mozaic 3+(魔彩盒3+)平台等企业级数据存储解决方案来满足不同客户的需求。其中Mozaic 3+(魔彩盒3+)带来的30TB突破,单盘片容量达到了3TB,未来单碟容量还将达到4TB、5TB。
随着存储持续在AI领域发挥重要作用,更高的面密度和高容量也将成为决战AI时代的关键。
好文章,需要你的鼓励
Birk Jernstrom在Shopify收购其上一家初创公司后,创立了货币化平台Polar,专注帮助开发者构建单人独角兽企业。该平台为开发者提供支付基础设施服务,处理全球计费和税务问题,让企业从第一天起就能销售在线产品和SaaS订阅服务。Polar获得了Accel领投的1000万美元种子轮融资,自2024年9月推出以来已吸引1.8万名客户。
Anthropic和Open Philanthropy研究人员发现,之前声称AI推理模型存在"准确率崩溃"的研究实际上混淆了推理能力和物理限制。通过重新分析发现,AI模型在遇到输出长度限制时会主动停止,而非推理失败;部分测试题目本身无解却被当作失败案例;改用程序生成方式后,模型在复杂问题上表现出色,揭示了AI评估方法的重要缺陷。
OpenAI首席执行官奥特曼证实,Meta为挖角OpenAI和谷歌DeepMind的顶尖AI研究人员,开出了超过1亿美元的薪酬包。然而,这些挖角努力基本失败。奥特曼表示,员工们认为OpenAI在实现AGI方面机会更大,公司文化更注重创新使命而非高薪。Meta正在组建超级智能团队,但面临OpenAI、Anthropic等竞争对手的激烈竞争。
华为联合多所高校发布TeleMath数据集,这是首个专门评估大型语言模型在通信数学问题求解能力的基准测试。研究团队设计创新的合成数据生成框架,从50个专家问题扩展至500个测试样本,涵盖信号处理、网络优化等七大领域。评估结果显示,专门的推理模型明显优于通用模型,为通信AI应用指明方向。