去年,AIGC带动了大量的HBM需求,今年,我们又看到QLC 等 SSD“深受追捧”。如果说今年年初,整个行业对NAND市场趋势还不乐观,那么现在看来,AI对SSD的影响突显出来:最新的数据表明,北美地区的中等规模客户在新建数据中心的时候,基本上不再考虑纯HDD的方案,而这一波趋势可能至少会持续到2025年甚至更久。
受GPU性能进化和功耗、空间等限制的影响,怎么样在有限的机架柜里,部署更多的算力、更多的存力?存储基础设施的建设变成了一个AIGC客户必须要考虑的事情。在这种背景下,大容量且在成本和性能实现平衡的QLC NAND SSD更是迎来市场的春天。
Solidigm作为最早布局四层单元(QLC) NAND的固态硬盘(SSD)的厂商,随着当前QLC的性能、耐用性、故障率等技术的成熟,QLC在更低成本下能够提供与TLC相当的性能。
“Solidigm从2018年开始在QLC方面的耕耘,我们做了6年多的QLC,积累了很多产品、技术、方案层面的经验,我们目前是全球唯一拥有经企业验证的61.44TB QLC SSD的厂家,我们的产品已经准备好了,技术也非常成熟。” Solidigm亚太区销售副总裁倪锦峰解释了Solidigm取得的成绩,其实是一个长年累月的积累结果。
人工智能工作流下的存储:挑战与机遇
谈到AI,大家谈到的是大模型,是数据的训练和推理,主要考虑GPU的能力,但是因为整个数据训练和推理是一个循环的过程,最终还是要对数据进行存储。
在AI时代,巨量的数据和数据呈现出的指数级的增长态势,随着与云数据中心传输距离的增加,人工智能工作流需要在包括核心数据中心、近边缘以及远边缘端等不同位置流动,如何优化包括数据采集、训练、推理和存储整个过程,让不同应用数据在不同的存储环境中快速流动,传统存储技术和方案能否胜任边和端的复杂环境和多样化需求,实现数据快速流动,成为新的挑战。
相比HDD而言,大容量、高带宽以及高吞吐的SSD成为数据存储新选择。
SSD对比HDD:几十/上百倍的性能优化
对于AI工作流的数据存储而言,Solidigm通过实际的工作负载以及存储方案,针对核心数据中心、近边缘和远边缘端中的工作负载到底呈现什么样的特色,以及对数据存储的性能有什么样的要求,进行实践,得出结论是,在人工智能领域,SSD更胜一筹。
比如在核心数据中心,数据摄取阶段和归档阶段对写入吞吐量和容量要求比较高;检查点更多地注重高顺序写入和高顺序读取;训练需要更高的容量和吞吐量,同时对顺序带宽要求比较高一点。在远边缘,用轻量级的训练能够提升一部分的存储性能,提升NPU、CPU或者是TPU的利用率。在数据准备阶段,基本上都是存储池越大越好,同时更注重的是并发90/10读写混合的高读写带宽能力。
根据这些能力,用户可以选择更合适的存储方案。通过SSD和HDD的性能对比:包括在数据摄取阶段的顺序写入能力,准备阶段的顺序读取能力,以及训练阶段的检查点和恢复,顺序写入和顺序读取能力,推理阶段的数据随机读取能力,都可以看出,SSD相对HDD呈现明显的优势。“以P5430(30TB)为例,在推理阶段,随机读取能力要比HDD高4500倍,顺序写入阶段差不多可以高10倍左右,基本上每项能有10倍到几千倍的提升。在SSD实际部署场景的综合评价里,也有几十倍甚至是上百倍的优化。” 倪锦峰谈到。
QLC SSD在AI领域的应用探讨
QLC的发展前景很大,首先是替代TLC NAND SSD,目前消费端QLC NAND SSD已经替换掉很大一部分的TLC NAND SSD,后面会更进一步加速。企业级方面也开始替换一部分的TLC,比如说P5430,它的目标是替代一部分的TLC SSD。其次,随着QLC NAND SSD在容量和成本方面的优势,未来也会替代一部分HDD,比如SSD就是替换部分温数据存储。
这是因为随着AI生态的完善,QLC SSD里还要加入额外的一些特性,比如说大家都比较熟悉的数据压缩/解压缩、去重等等,能够把这些能力能够集成到SSD里,卸载一部分GPU或者是CPU的算力,这些都是将来QLC替换HDD展现的方向。
“Solidigm在QLC里耕耘了很多年,从2018年至今,六年多的时间里,我们在技术、产品、方案当中做了很多创新,我们也做了好几代的QLC的产品。当前我们提供了三大系列的QLC产品:192层的D5-P5430,192层的D5-P5336,144层的D5-P5316。”
当然对于用户而言,采用SSD最关注的还是成本。在大部分人的眼里,硬盘只是一个很简单的容量翻倍,但是对专业人士来说完全不是。目前要做一个大容量的QLC SSD不容易,但是怎么样把它用好更难。“比如要实现单卡128TB的容量的QLC SSD,目前每张卡要集成的Die需要1.2张晶圆片,不同的晶圆片意味着质量管控、产品设计、non-NAND等要求更高。可能任何的电阻、电容或者是一个接口坏了,就会损失1.2张晶圆片。” 倪锦峰解释了工艺方面的挑战。
而更长期的挑战是,怎么样让大容量的硬盘给客户带来更多的价值,比如集成压缩/解压缩、去重等越来越多的功能。那么对客户来说意味着什么呢?对于客户来说不是简单地说用QLC替换HDD,把单服务器容量从400TB涨到1PB、2PB或者是4PB。客户要考虑到很多,除了功耗的节省和空间的节省之外,还要考虑容错管理。以前一个4TB或者是8TB的盘失效了,可以很快做恢复。当一块硬盘变成128TB,如果这个盘失效了,或者是一个节点2PB或者是4PB失效了,这个失效管理怎么做?可以用EC(erasure coding),或者把网络能力升级,使得恢复的时间大大缩短,才能满足交付的要求。
同时还要考虑在生态方面的优化,因为替换HDD会造成接口、能耗等变化,这些都需要做出相应的改变。在软件层面,QLC解决方案适合对顺序带宽要求比较高的场景,但是一旦有一些随机写的场景应该怎么办?是加一段高速缓存,还是用CASL软件,或者是用自己的方案做聚合?这方面也是有很多需要去考虑的。
“QLC SSD替代HDD,需要长期主义,并要做到四点,一是软硬件的生态系统,特别是软件的优化;二是硬件的生态系统,比如说服务器的远程支持;三是怎么样能够降低成本,四是架构方面的优化。” 倪锦峰最后分享到。而这四点,也是率先进入QLC SSD领域,且深耕6年之久的Solidigm,一直在做的事情。
好文章,需要你的鼓励
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面
“未来软件定义汽车”的设想也成为马丁当前运营路线的指导方针,且高度关注数据、零件和资产管理等议题。