“容量”, 是希捷中国区产品部总监刘嘉从过去两年生成式AI发展中观察到客户对存储的首要需求。
“尽管AI还未完全成熟,但其推动力已经开始显现,存储需求回升明显。”刘嘉说。24T、30T的容量增长已成为共识,接下来则是对性能的更高要求。
固态硬盘性能更高,机械硬盘高容量和低成本,也成为新一轮AI浪潮的一种选择。2024财年希捷发货量显著增长,特别是企业级需求占比达到80%左右,推动了单盘容量的提升,尤其是20TB以上的大容量硬盘需求,实现性能与成本的平衡已经成为企业下一阶段重点考虑的方向。
希捷中国区产品部总监刘嘉
生成式AI下的存储选择
生成式AI席卷而来,不同于最直观的算力,存储能做点什么?希捷从中看到了三个影响存储的趋势。
第一,数据生产加速:IDC报告数据显示,2023年中国大数据市场规模达179.3亿元人民币,相比2022年增长24.6%。希捷认为到2028年数据生产都会处在加速的状态,一个原因是生产数据的内容越来越丰富,文字、视频、文生内容,另一个原因是更多的数据需要留存,预计到2028年,生成式AI将产生约100ZB的数据。
第二,AI对存储的影响:数据生产与数据存储是两个过程,相比之前数据生成速度提升,存储需求存在一定的滞后性。过去一年多企业的AI投资主要集中在算力、模型层面,接下来,随着数据的增长,存储需求也将显著提升。
第三,存储介质的选择:随着AI带动GPU和内存价格上涨,固态硬盘和机械硬盘的单TB价格比正在增大。过去一年中,固态硬盘价格增速快于机械硬盘。除了AI训练需要的固态硬盘,很多客户还会选择在性价比和总拥有成本(TCO)上更具优势的机械硬盘。
随着生成式AI的快速崛起,存储的角色变得愈发关键。希捷希望把握数据生产加速、AI对存储需求的滞后性、存储介质选择三大趋势,提供相应的解决方案。
在大模型的训练过程中,存储会参与到多个环节中。刘嘉认为,机械硬盘也可以在这些环节提供相应的支撑。
模型文件:在训练开始时,模型文件会直接存储在GPU集群中,文件大小从几百MB到几个TB不等。
checkpoint(检查点):训练过程中会产生临时保存的数据(checkpoint),最初很多企业使用性能较高的固态硬盘存储这些数据,同时成本也较高。现在企业发现可以将不常读取的checkpoint数据转移到机械硬盘降低成本。
模型版本:当模型训练多个版本时,会有不同版本的模型数据保存,由于存储对性能要求较低,部分企业选择使用机械硬盘。
生成数据:通过文生图片、视频等生成的数据大概率会存储在机械硬盘上,特别是在模型稳定后,生成数据更加丰富且留存时间更长,进一步优化存储成本可以使用机械硬盘。
存储进入大容量时代
希捷一直是机械硬盘巨头,从2024年财报显示,希捷实现 65.51 亿美元营收,其中毛利率为23.4%,较上一年度的18.3%有了明显的提升,回归盈利通道。
机械硬盘还会是希捷未来的主阵地,刘嘉认为,企业90%的数据存储在企业级硬盘和云端,服务好这部分市场非常关键。
同时,希捷的另一个重点是持续提升容量、降低功耗,提高每TB的性能,以满足生成式AI的需求。希捷还在积极评估与AI相关的新机会,旨以适应日益增长的AI应用和负载需求。
通过对市场需求的观察,希捷将客户分为三类:
优化工作负载的客户:这类客户看中机械硬盘的大容量和低成本优势。虽然机械硬盘在随机读写性能上和固态硬盘比相差10-20万,但顺序读写上每秒能达到250M。基于这些特性在业务层将工作负载顺序化,将顺序读写任务分配给机械硬盘,随机读写任务则转移到闪存上,降低了总拥有成本(TCO)。
停留在固定容量的客户:有些客户使用的机械硬盘容量停留在12TB左右,因更高容量的硬盘性能不理想,仍然选择机械硬盘,因为价格较低,且未来随着磁密度的提升,这类容量也可能有进一步的改进空间。
尝试双磁臂硬盘的客户:采用双磁臂硬盘技术在增加容量的同时可以保持单TB的性能不变,适用于对IO要求较高的业务场景,如块存储、邮件服务器。双磁臂硬盘相比单磁臂硬盘价格略高,但性能提升显著,是一种平衡成本与性能的选择。
希捷已经提供了包括银河Exos系列大容量机械硬盘、希捷雷霆Nytro系列固态硬盘,以及Mozaic 3+(魔彩盒3+)平台等企业级数据存储解决方案来满足不同客户的需求。其中Mozaic 3+(魔彩盒3+)带来的30TB突破,单盘片容量达到了3TB,未来单碟容量还将达到4TB、5TB。
随着存储持续在AI领域发挥重要作用,更高的面密度和高容量也将成为决战AI时代的关键。
好文章,需要你的鼓励
如果说世界上有哪个市场迫切需要激烈竞争,自然就是推动AI革命的数据中心GPU市场。目前英伟达几乎就是行业内唯一的神。
近日,杂货巨头Woolworths新西兰技术总经理Steve James和我们分享了如何在极端事件中保持基本服务的运行,如何与社区互动以激励人们从事技术职业,以及如何利用技术来确保团队安全。
从业务角度来说是反映模型的初始响应速度,对于实时交互式应用非常重要,较低的TTFT可以提高用户体验,使用户感觉模型响应迅速;