华为云EMS弹性内存存储服务正式推出，已在官网上线

在华为开发者大会(HDC 2024)上,华为云CTO张宇昕正式发布了EMS弹性内存存储服务。

在华为开发者大会(HDC 2024)上,华为云CTO张宇昕正式发布了EMS弹性内存存储服务。这一服务主要为了解决当前大模型训练与推理领域所面临的“内存墙”挑战,即单个神经处理单元(NPU)的高带宽内存(HBM)容量限制,该问题长期制约着AI算力的高效利用。

华为云EMS的创新之处在于它在NPU卡与持久化存储之间增设了一层弹性内存存储,运用Memory Pooling专利技术,综合显存扩展、算力卸载和以存代算三大策略,有效打破了内存瓶颈。具体来说:

显存扩展:大模型推理中,由于模型太大,通常需要使用大量的NPU卡才能将模型参数装下来进行推理,但是NPU的算力往往利用率不高。EMS将模型参数分层存储在显存和EMS,只用了一半的卡,就可存下万亿参数的大模型,NPU部署数量减少50%。

算力卸载:大模型推理过程中包括模型计算和KV相关计算,其中KV相关计算的显存占用很大。EMS将KV相关计算的步骤卸载到EMS,而模型计算仍在NPU中进行,将AI推理性能提升了100%。

以存代算:大模型推理中为了节省显存,历史对话的KV Cache都不会保存,后续推理都只能重新计算,导致新推理的首Token时延超过1秒。现在可以将历史KV Cache保存在EMS里,供后续推理直接调用。优化后推理首Token时延降低到0.2秒以内,优化了80%。

目前,EMS弹性内存存储服务已在华为云官网上线,面向开发者与客户开放。

来源：业界供稿

华为云

0赞

好文章，需要你的鼓励

华为云EMS弹性内存存储服务正式推出，已在官网上线

来源：业界供稿

2024

06/21

19:16

分享

点赞

AI新加坡联手阿里云推出东南亚大语言模型Sea-Lion v4

5个将在2026年改变任何企业的惊人智能体应用案例

嵌套学习：谷歌又一个Transformer级别的研究？AI学习就像做梦一样层层嵌套

国家数据局公布2025年“数据要素×”大赛获奖名单：蚂蚁数科获优秀奖

超1亿用户可随时唤醒千问，夸克发布最新AI浏览器

阿里云服务器部署速度跟不上AI需求，GPU配给优先大客户

ChatGPT推出AI购物助手 生成个性化买家指南功能

Google与英伟达AI芯片竞争升级，Meta寻求合作

Mercy Ships与Presidio、思科携手推动海上医疗数字化变革

日本芯片初创公司Rapidus计划建设1.4纳米芯片制造厂

长虹佳华荣膺微软年度最佳合作伙伴大奖，云智协同驱动中国企业全球化跃迁

Hitachi Vantara推出VSP One高端块存储，赋能AI与任务关键型工作负载新时代

华为云盘古大模型赋能五大医药健康场景，全面加速行业创新

华为云康宁：加速应用鸿蒙化，华为云助力共赢

信通院发布！首个大模型混合云标准

华为Pura70手机电影上线，华为云空间成为其高效创作的幕后利器

用华为云空间，毕业开新局，存新梦

华为张平安：以架构创新提高系统竞争力，让AI重塑千行万业

在华为云空间存下毕业合照，珍藏青春回忆不遗漏

携手华为云，蘑菇物联引领工业公辅能源系统数智化节能革命

华为云提出五大举措加速AI落地，携手21家企业发布联合创新方案

华为云CTO张宇昕：系统性创新及服务重塑，打造AI Native的云

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

ChatGPT推出AI购物助手生成个性化买家指南功能