闪迪发布博客文章,介绍了与韩国科学技术院电子电气工程系高带宽内存技术先驱金正浩教授的访谈。金正浩教授曾参与HBM技术开发,目前正致力于高带宽闪存技术研究。闪迪认为,HBF技术是解决GPU HBM内存墙问题的答案——当AI工作负载的上下文内存超出HBM容量时,会导致耗时的向量重新计算。
去年我们曾报道过这项技术,并指出其开发过程将十分复杂。作为最大的HBM采购商,英伟达尚未对该技术表达公开兴趣。
此后,英伟达开发了上下文内存扩展技术ICMSP,使用连接DPU的NVMe固态硬盘来存储从HBM和GPU服务器DRAM溢出的键值缓存数据。ICMSP本质上是比标准SSD具有更高带宽和更低延迟的闪存技术,因为它连接的BlueField-4 DPU是存储加速器,通过Spectrum-6以太网连接到Vera Rubin集群中的GPU,使用光子技术,每端口运行速度达800 Gbps。
AI内存瓶颈推动技术创新需求
金教授阐述了HBF等技术的必要性:"在AI Transformer模型中,特别是推理场景下,计算受到内存限制。相比大量计算,系统花费更多时间从内存读取数据和执行写入过程。带宽成为限制因素。"
他指出:"不幸的是,大多数推理和训练过程以及性能都受到内存限制。这意味着我们需要更多内存创新。在内存领域,我们有SRAM、DRAM和NAND闪存。我们必须以某种方式设计这些连接。"
金教授认为"计算创新主要将由内存架构驱动。我坚信这一点。"
他提出了一个模型,可以部署100GB HBM作为1TB HBF层前的缓存,并指出:"挑战在于GPU必须接受这种新架构,这对它们是最佳选择。此外,开发者必须修改软件以优化软硬件协同工作。例如,某些数据必须直接从HBF连接并传输到HBM。因此,他们需要新的指令集和电路来支持这些功能。他们必须接受这些新参数。"
这使得HBF的采用变得更加复杂。
技术实现面临多重挑战
从更广阔的角度来看,HBF技术开发是一项多年努力,需要像英伟达这样的GPU制造商在其GPU周围部署一组HBM芯片,如果HBM缓存HBF,则需要在HBM周围再部署一组HBF芯片;如果不缓存,则需要提供直接的GPU到HBF连接,这会使GPU内存管理变得更加复杂。这涉及大量半导体级别的工作。
值得注意的是,SK海力士和英伟达正在合作开发1亿IOPS AI固态硬盘概念。如果该SSD用于英伟达的BlueField-4连接的ICMSP中,那么可能就不需要HBF技术了。
我们认为,如果SSD行业建立通用的HBF标准,并且英伟达采用HBF作为技术方向,那么HBF技术就有未来。缺少这两个条件,该技术将面临困境。
Q&A
Q1:高带宽闪存HBF技术是什么?它要解决什么问题?
A:高带宽闪存是一种新型存储技术,旨在解决AI工作负载中的GPU内存瓶颈问题。当AI推理任务的上下文内存超出HBM容量时,会导致耗时的向量重新计算,HBF技术可以提供更大容量和更高带宽的存储解决方案。
Q2:HBF技术实现有哪些技术挑战?
A:HBF技术面临多重挑战:GPU制造商需要重新设计架构,在GPU周围部署HBM和HBF芯片;开发者需要修改软件以优化硬件协同;还需要新的指令集和电路支持直接的HBF到HBM数据传输,这些都涉及大量半导体级别的复杂工作。
Q3:英伟达对HBF技术的态度如何?有替代方案吗?
A:英伟达作为最大的HBM采购商,尚未对HBF技术表达公开兴趣。相反,英伟达开发了ICMSP技术,使用连接DPU的NVMe固态硬盘存储溢出的缓存数据。此外,英伟达还与SK海力士合作开发1亿IOPS AI固态硬盘,这可能成为HBF的替代方案。
好文章,需要你的鼓励
这期是技术加情怀了。极少数人基于热情和对卓越的执念,构建了数十亿人每天依赖但普通人从不知晓的基础设施。
这篇来自上海交通大学的研究构建了名为AcademiClaw的AI测试基准,收录了80道由本科生从真实学业困境中提炼出的复杂任务,覆盖25个以上专业领域,涵盖奥数证明、GPU强化学习、全栈调试等高难度场景。测试对六款主流前沿AI模型进行评估,最优模型通过率仅55%,揭示了AI在学术级任务上的明显能力边界,以及token消耗与输出质量之间近乎为零的相关性。
Antigravity A1无人机推出"大春季更新",新增AI智能剪辑、语音助手、延时摄影模式及升级版全向避障系统。用户可通过语音命令控制Sky Genie、深度追踪等核心功能,虚拟驾驶舱支持第三人称视角飞行。随着产品进入墨西哥市场,Antigravity全球覆盖已近60个国家,持续推动无人机向更智能、更易用方向发展。
Meta AI安全团队于2026年5月发布了代码世界模型(CWM)的预发布安全评估报告(arXiv:2605.00932v1)。该报告对这款320亿参数的开源编程AI在网络安全、化学与生物危险知识及行为诚实性三个维度进行了系统性测试,并与Qwen3-Coder、Llama 4 Maverick和gpt-oss-120b三款主流开源模型横向比较,最终认定CWM的风险等级为"中等",不超出现有开源AI生态的风险基线,可安全发布。