据报道,华为即将推出一款AI SSD,该产品将与其统一缓存管理器(UCM)软件协同工作,从GPU的高带宽内存中卸载键值(KV)缓存数据,通过避免KV缓存数据重新计算来加速AI处理。
当大语言模型执行时,它会以键和值的形式将数据存储在GPU的高带宽内存(HBM)中。在长时间推理运行的情况下,这个缓存会被新的KV数据填满,导致较旧的数据被驱逐,当再次需要时就必须重新计算。这种重新计算会延长大语言模型的运行时间,延迟对用户请求的响应。通过将被驱逐的KV数据存储在连接的SSD中,可以在需要时检索,从而缩短模型响应时间。
即将推出的华为AI SSD据说有助于解决影响GPU服务器的内存墙问题,即有限的HBM容量会延长计算时间。美国的技术出口限制阻碍了中国使用最新GPU和HBM的努力。中国国内的内存制造商尚未开发出自己的HBM技术。华为AI SSD将具有大容量但未具体说明的存储空间,以及快速但同样未具体说明的I/O性能。
VAST Data和WEKA及其增强内存网格都有将KV缓存内容卸载到SSD的软件,中国的燕融存储系统供应商也有类似技术。PEAK:AIO和Pliops也提供KV缓存卸载解决方案。
华为的方案依赖其UCM软件提供分层KV缓存概念,包含GPU HBM、CPU DRAM内存和直连SSD存储,根据需要在各层之间移动数据。华为还拥有现有的XtremeLink技术,使用eKitStor Xtreme 200E SSD,采用PCIe Gen 4 x 4通道连接,提供高达6.5 GBps的读取速度和7 GBps的写入速度。
这个性能不错但并非顶尖。SK海力士的Platinum P41 M.2 SSD在相同的PCIe Gen 4 x 4配置下提供7 GBps读取和6.5 GBps写入速度。华为需要采用PCIe Gen 5互连技术才能获得12-14 GBps范围内更快的读写速度。燕融已经拥有国产PCIe 5 NVMe SSD。
报告还提到了华为的SpeedFlex PCB技术,涉及其印刷电路板的热可靠性和优化数据传输。这似乎并非尖端技术。
报告称,配备UCM、XtremeLink和SpeedFlex的AI SSD"代表了国产SSD的关键突破。华为将与国内训练和推理设备制造商合作,这将帮助中国构建新的AI生态系统,应对全球化挑战。"
Q&A
Q1:华为AI SSD是如何解决GPU内存瓶颈问题的?
A:华为AI SSD通过与统一缓存管理器软件协同工作,将GPU高带宽内存中的键值缓存数据卸载到SSD存储中。当GPU内存被新数据填满时,旧数据不会丢失而是存储在SSD中,需要时可直接检索,避免了重新计算,从而缩短大语言模型的响应时间。
Q2:华为AI SSD的性能表现如何?
A:华为AI SSD使用XtremeLink技术和eKitStor Xtreme 200E SSD,采用PCIe Gen 4 x 4通道连接,提供高达6.5 GBps读取速度和7 GBps写入速度。不过这个性能并非顶尖,SK海力士同类产品在相同配置下可达7 GBps读取和6.5 GBps写入速度。
Q3:为什么华为要开发AI SSD产品?
A:主要原因是美国技术出口限制阻碍了中国使用最新GPU和高带宽内存的努力,而中国国内内存制造商尚未开发出自己的HBM技术。华为AI SSD旨在通过创新的缓存管理方案缓解GPU内存瓶颈,帮助中国构建新的AI生态系统应对挑战。
好文章,需要你的鼓励
博通宣布对VMware Cloud Foundation平台进行重大升级,将私有AI服务集成到核心订阅中,并为vSAN存储虚拟化软件添加云原生对象存储支持。此举旨在满足企业对简化基础设施、高效AI采用和网络安全的需求。升级包括与英伟达合作的VMware Private AI Foundation服务、支持AMD GPU、Amazon S3兼容对象存储、与Canonical合作的Ubuntu容器镜像,以及新的四阶段自动化安全流程。博通还推出了面向高监管行业的VCF网络合规高级服务。
清华大学等多家机构研究团队完成了语音分离技术的全面调研,系统梳理了从传统方法到深度学习的技术演进。研究揭示了"鸡尾酒会问题"的核心挑战,分析了各种学习范式和网络架构的优劣,并通过统一实验框架提供了公平的性能基准。调研涵盖了实时处理、轻量化设计、多模态融合等关键技术方向,为学术界和产业界的技术选型提供了重要参考,推动语音分离从实验室走向实际应用。
Google正式发布Gemini 2.5 Flash Image模型,该模型此前在测试版中被称为nanobanana。新模型为企业创意项目提供更多选择,能够快速修改图像外观并提供比以往模型更强的控制能力。该模型在保持人物相似度和编辑一致性方面表现出色,支持多轮编辑、照片融合等功能,并已集成到Gemini应用中供付费和免费用户使用。
浙江大学和腾讯微信视觉团队发现AI图片生成训练中"时机胜过强度"的重要规律,开发出TempFlow-GRPO新方法。通过轨迹分支技术精确评估中间步骤,结合噪声感知权重调整优化不同阶段的学习强度,将训练效率提升三倍,在复杂场景理解方面准确率从63%提升至97%,为AI训练方法论带来重要突破。