西部数据发布博客文章,介绍了与韩国科学技术院电子电气工程系高带宽内存技术先驱金正浩教授的访谈。金正浩教授曾参与HBM技术开发,目前正致力于高带宽闪存技术研究。西部数据认为,HBF技术是解决GPU HBM内存墙问题的答案——当AI工作负载的上下文内存超出HBM容量时,会导致耗时的向量重新计算。
去年我们曾报道过这项技术,并指出其开发过程将十分复杂。作为最大的HBM采购商,英伟达尚未对该技术表达公开兴趣。
此后,英伟达开发了上下文内存扩展技术ICMSP,使用连接DPU的NVMe固态硬盘来存储从HBM和GPU服务器DRAM溢出的键值缓存数据。ICMSP本质上是比标准SSD具有更高带宽和更低延迟的闪存技术,因为它连接的BlueField-4 DPU是存储加速器,通过Spectrum-6以太网连接到Vera Rubin集群中的GPU,使用光子技术,每端口运行速度达800 Gbps。
AI内存瓶颈推动技术创新需求
金教授阐述了HBF等技术的必要性:"在AI Transformer模型中,特别是推理场景下,计算受到内存限制。相比大量计算,系统花费更多时间从内存读取数据和执行写入过程。带宽成为限制因素。"
他指出:"不幸的是,大多数推理和训练过程以及性能都受到内存限制。这意味着我们需要更多内存创新。在内存领域,我们有SRAM、DRAM和NAND闪存。我们必须以某种方式设计这些连接。"
金教授认为"计算创新主要将由内存架构驱动。我坚信这一点。"
他提出了一个模型,可以部署100GB HBM作为1TB HBF层前的缓存,并指出:"挑战在于GPU必须接受这种新架构,这对它们是最佳选择。此外,开发者必须修改软件以优化软硬件协同工作。例如,某些数据必须直接从HBF连接并传输到HBM。因此,他们需要新的指令集和电路来支持这些功能。他们必须接受这些新参数。"
这使得HBF的采用变得更加复杂。
技术实现面临多重挑战
从更广阔的角度来看,HBF技术开发是一项多年努力,需要像英伟达这样的GPU制造商在其GPU周围部署一组HBM芯片,如果HBM缓存HBF,则需要在HBM周围再部署一组HBF芯片;如果不缓存,则需要提供直接的GPU到HBF连接,这会使GPU内存管理变得更加复杂。这涉及大量半导体级别的工作。
值得注意的是,SK海力士和英伟达正在合作开发1亿IOPS AI固态硬盘概念。如果该SSD用于英伟达的BlueField-4连接的ICMSP中,那么可能就不需要HBF技术了。
我们认为,如果SSD行业建立通用的HBF标准,并且英伟达采用HBF作为技术方向,那么HBF技术就有未来。缺少这两个条件,该技术将面临困境。
Q&A
Q1:高带宽闪存HBF技术是什么?它要解决什么问题?
A:高带宽闪存是一种新型存储技术,旨在解决AI工作负载中的GPU内存瓶颈问题。当AI推理任务的上下文内存超出HBM容量时,会导致耗时的向量重新计算,HBF技术可以提供更大容量和更高带宽的存储解决方案。
Q2:HBF技术实现有哪些技术挑战?
A:HBF技术面临多重挑战:GPU制造商需要重新设计架构,在GPU周围部署HBM和HBF芯片;开发者需要修改软件以优化硬件协同;还需要新的指令集和电路支持直接的HBF到HBM数据传输,这些都涉及大量半导体级别的复杂工作。
Q3:英伟达对HBF技术的态度如何?有替代方案吗?
A:英伟达作为最大的HBM采购商,尚未对HBF技术表达公开兴趣。相反,英伟达开发了ICMSP技术,使用连接DPU的NVMe固态硬盘存储溢出的缓存数据。此外,英伟达还与SK海力士合作开发1亿IOPS AI固态硬盘,这可能成为HBF的替代方案。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。