闪迪发布博客文章,介绍了与韩国科学技术院电子电气工程系高带宽内存技术先驱金正浩教授的访谈。金正浩教授曾参与HBM技术开发,目前正致力于高带宽闪存技术研究。闪迪认为,HBF技术是解决GPU HBM内存墙问题的答案——当AI工作负载的上下文内存超出HBM容量时,会导致耗时的向量重新计算。
去年我们曾报道过这项技术,并指出其开发过程将十分复杂。作为最大的HBM采购商,英伟达尚未对该技术表达公开兴趣。
此后,英伟达开发了上下文内存扩展技术ICMSP,使用连接DPU的NVMe固态硬盘来存储从HBM和GPU服务器DRAM溢出的键值缓存数据。ICMSP本质上是比标准SSD具有更高带宽和更低延迟的闪存技术,因为它连接的BlueField-4 DPU是存储加速器,通过Spectrum-6以太网连接到Vera Rubin集群中的GPU,使用光子技术,每端口运行速度达800 Gbps。
AI内存瓶颈推动技术创新需求
金教授阐述了HBF等技术的必要性:"在AI Transformer模型中,特别是推理场景下,计算受到内存限制。相比大量计算,系统花费更多时间从内存读取数据和执行写入过程。带宽成为限制因素。"
他指出:"不幸的是,大多数推理和训练过程以及性能都受到内存限制。这意味着我们需要更多内存创新。在内存领域,我们有SRAM、DRAM和NAND闪存。我们必须以某种方式设计这些连接。"
金教授认为"计算创新主要将由内存架构驱动。我坚信这一点。"
他提出了一个模型,可以部署100GB HBM作为1TB HBF层前的缓存,并指出:"挑战在于GPU必须接受这种新架构,这对它们是最佳选择。此外,开发者必须修改软件以优化软硬件协同工作。例如,某些数据必须直接从HBF连接并传输到HBM。因此,他们需要新的指令集和电路来支持这些功能。他们必须接受这些新参数。"
这使得HBF的采用变得更加复杂。
技术实现面临多重挑战
从更广阔的角度来看,HBF技术开发是一项多年努力,需要像英伟达这样的GPU制造商在其GPU周围部署一组HBM芯片,如果HBM缓存HBF,则需要在HBM周围再部署一组HBF芯片;如果不缓存,则需要提供直接的GPU到HBF连接,这会使GPU内存管理变得更加复杂。这涉及大量半导体级别的工作。
值得注意的是,SK海力士和英伟达正在合作开发1亿IOPS AI固态硬盘概念。如果该SSD用于英伟达的BlueField-4连接的ICMSP中,那么可能就不需要HBF技术了。
我们认为,如果SSD行业建立通用的HBF标准,并且英伟达采用HBF作为技术方向,那么HBF技术就有未来。缺少这两个条件,该技术将面临困境。
Q&A
Q1:高带宽闪存HBF技术是什么?它要解决什么问题?
A:高带宽闪存是一种新型存储技术,旨在解决AI工作负载中的GPU内存瓶颈问题。当AI推理任务的上下文内存超出HBM容量时,会导致耗时的向量重新计算,HBF技术可以提供更大容量和更高带宽的存储解决方案。
Q2:HBF技术实现有哪些技术挑战?
A:HBF技术面临多重挑战:GPU制造商需要重新设计架构,在GPU周围部署HBM和HBF芯片;开发者需要修改软件以优化硬件协同;还需要新的指令集和电路支持直接的HBF到HBM数据传输,这些都涉及大量半导体级别的复杂工作。
Q3:英伟达对HBF技术的态度如何?有替代方案吗?
A:英伟达作为最大的HBM采购商,尚未对HBF技术表达公开兴趣。相反,英伟达开发了ICMSP技术,使用连接DPU的NVMe固态硬盘存储溢出的缓存数据。此外,英伟达还与SK海力士合作开发1亿IOPS AI固态硬盘,这可能成为HBF的替代方案。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。