在华为开发者大会(HDC 2024)上,华为云CTO张宇昕正式发布了EMS弹性内存存储服务。这一服务主要为了解决当前大模型训练与推理领域所面临的“内存墙”挑战,即单个神经处理单元(NPU)的高带宽内存(HBM)容量限制,该问题长期制约着AI算力的高效利用。
华为云EMS的创新之处在于它在NPU卡与持久化存储之间增设了一层弹性内存存储,运用Memory Pooling专利技术,综合显存扩展、算力卸载和以存代算三大策略,有效打破了内存瓶颈。具体来说:
显存扩展:大模型推理中,由于模型太大,通常需要使用大量的NPU卡才能将模型参数装下来进行推理,但是NPU的算力往往利用率不高。EMS将模型参数分层存储在显存和EMS,只用了一半的卡,就可存下万亿参数的大模型,NPU部署数量减少50%。
算力卸载:大模型推理过程中包括模型计算和KV相关计算,其中KV相关计算的显存占用很大。EMS将KV相关计算的步骤卸载到EMS,而模型计算仍在NPU中进行,将AI推理性能提升了100%。
以存代算:大模型推理中为了节省显存,历史对话的KV Cache都不会保存,后续推理都只能重新计算,导致新推理的首Token时延超过1秒。现在可以将历史KV Cache保存在EMS里,供后续推理直接调用。优化后推理首Token时延降低到0.2秒以内,优化了80%。
目前,EMS弹性内存存储服务已在华为云官网上线,面向开发者与客户开放。
好文章,需要你的鼓励
刚刚,确实是刚刚。2026 年 6 月 12 日,SpaceX 以每股 135 美元在纳斯达克挂牌(SPCX),收于 160.95 美元,涨 19%,市值突破 2 万亿美元,史上最大 IPO。
这项研究提出用费舍尔信息矩阵谱范数衡量深度神经网络的内在脆弱性,无需发动对抗攻击即可评估模型稳健性,并推导了VGG、ResNet、DenseNet和Transformer的理论排名。
前美国总统候选人杨安泽认为,AI浪潮将压缩薪资、取代就业,由此催生出一个新的创业机会——帮助普通人降低生活成本。他以马克·库班的平价药品公司为灵感,于去年创办了移动虚拟运营商Noble Mobile,以低价提供手机服务并与用户共享利润。杨安泽表示,住房、教育、食品、交通等基本生活领域都存在巨大机会,市场可以在政策失灵时发挥再分配作用,鼓励创业者突破AI泡沫思维,关注真实的民生问题。
南加州大学提出DistIL方法,通过前向交叉熵目标和完整序列级梯度,解决AI自蒸馏训练中方向偏差与局部信用分配问题,在科学推理、编程和难题数学上均超越现有基线。