分析显示,高带宽闪存(HBF)承诺提供超大容量,但面临极其复杂的工程挑战。
高带宽闪存(HBF)将堆叠多层NAND芯片——每个芯片本身由数百层堆叠的3D NAND单元层组成——创造前所未有的存储容量,同时带来令人生畏的工程挑战。
韩国科学技术院电气电子工程系教授金政浩在韩国媒体EEWorld上解释了HBF的发展,将其作为GPU高带宽存储器(HBM)的补充。
HBM成本昂贵。它由堆叠的平面(2D)DRAM层组成,通过称为硅通孔(TSV)的通道连接到基础逻辑层:
DRAM堆栈和逻辑芯片位于中介层上,这是一个半导体设备,用于将它们链接到处理器(在这种情况下是GPU)。HBM的优势在于它提供了比x86 CPU存储器插槽方案更高的处理器到存储器带宽。GPU拥有数百或数千个核心,而现代x86 CPU只有数十个,每个核心都需要访问存储器。
目前的HBM3E有8到16层;SK海力士的16-Hi设备提供48GB容量。HBM4可能具有相似的容量,但带宽翻倍至2TBps而不是1TBps。HBM5代将需要超过4000个TSV通过DRAM堆栈层。
金教授在KBS YouTube视频中展示了HBM 6到8代的愿景。每一代HBM的进步都需要在存储器堆栈逻辑芯片和中介层级别上增加更多复杂性。
记住这一点,我们来看HBF。HBF的想法是通过使用闪存为GPU提供更多存储器——闪存制造成本更低,尽管访问速度比DRAM慢。HBF将堆叠NAND芯片层,每层都连接到基础逻辑芯片,然后再次通过中介层路由到GPU。
目前NAND以其3D NAND形式本身就由堆叠层组成:
SK海力士正在使用TLC闪存出货238层产品,单芯片容量512Gb(64GB),并即将推出321层技术。存储单元堆栈位于外围逻辑层基础之上。
考虑12-Hi HBF堆栈:12层3D NAND总共2866层(使用238层NAND),容量768GB。16-Hi堆栈的321层3D NAND将总共有5136层,容量可能超过1TB。
这里的互连管线将极其复杂。SK海力士512Gb芯片是单个堆栈,基础层之上的每个NAND串都有其蚀刻的垂直通道连接到基础逻辑芯片。
想象将两个这样的芯片一个叠在另一个之上。上层芯片的基础外围逻辑层必须连接到底部的中介层。这些连接是穿过第一个NAND芯片,还是绕过它?无论哪种方式都会增加整个设备的2D尺寸。中介层现在还必须将来自两个3D NAND芯片的信号传输到GPU,增加其复杂性。
让问题变得更糟,设想一个12-Hi HBF堆栈,意味着12个3D-NAND堆栈,每个都需要连接到中介层,使设备尺寸更大,中介层再次变得更加复杂。
GPU到HBM和HBF的连接需要复杂的协调。英伟达作为主导GPU制造商,需要深度参与。标准至关重要,这样多个供应商可以竞争并防止垄断定价。
这解释了为什么闪迪和SK海力士积极参与HBF标准化,并表明HBF距离商业化还有两年或更长时间。
Q&A
Q1:高带宽闪存(HBF)是什么技术?
A:高带宽闪存(HBF)是一种新兴的存储技术,通过堆叠多层NAND芯片来创造超大存储容量,作为GPU高带宽存储器(HBM)的补充。每个NAND芯片本身由数百层3D NAND单元层组成,能够为GPU提供更多存储空间。
Q2:高带宽闪存相比HBM有什么优势?
A:HBF的主要优势是成本更低且容量更大。闪存制造成本比DRAM便宜,虽然访问速度较慢,但能提供更大的存储容量。例如12-Hi HBF堆栈可达768GB容量,16-Hi堆栈甚至可能超过1TB。
Q3:高带宽闪存什么时候能商业化?
A:HBF距离商业化还需要两年或更长时间。这是因为HBF面临极其复杂的工程挑战,包括复杂的互连管线设计、GPU连接协调等技术难题,目前闪迪和SK海力士正在积极参与HBF标准化工作。
好文章,需要你的鼓励
高带宽闪存技术承诺提供超大容量,但面临极其复杂的工程挑战。该技术将多层NAND芯片堆叠,每层由数百个3D NAND单元层组成,可创造前所未有的存储容量。相比昂贵的HBM内存,HBF使用更便宜但速度较慢的闪存为GPU提供更多存储空间。技术复杂性体现在互连布线的困难,12层HBF堆叠将包含2866个存储层。由于需要英伟达等GPU厂商深度参与和行业标准制定,预计HBF距离商用还需两年以上时间。
阿里巴巴达摩院联合浙江大学、香港科技大学发布Inferix,这是专为世界模拟打造的下一代推理引擎。它采用块扩散技术,像搭积木般分段生成视频,既保证高质量又支持任意长度,克服了传统方法的局限。配套LV-Bench评测基准包含1000个长视频样本,建立了分钟级视频生成的评估标准,为游戏、教育、娱乐等领域的内容创作带来革命性突破。
戴尔第三季度营收270亿美元,同比增长11%,创历史新高,主要受AI服务器需求爆发式增长推动。AI服务器订单达123亿美元,全年订单总额300亿美元。基础设施解决方案集团营收141亿美元,增长24%,其中服务器和网络业务表现强劲。存储业务营收39.8亿美元,同比下降1%,但全闪存阵列产品实现双位数增长。公司预计第四季度营收315亿美元,全年AI服务器出货量约250亿美元。
Luma AI推出的终端速度匹配(TVM)是一种革命性的图像生成技术,能够在单次计算中生成高质量图像,突破了传统方法需要数十步采样的限制。该技术通过关注生成路径的"终点"而非"起点",实现了从噪声到图像的直接跳跃,在保证数学理论基础的同时大幅提升了生成效率,为实时AI应用开辟了新路径。