Microsoft 提出管理保留内存技术以应对 AI 工作负载

微软研究人员提出了一种新的内存技术——管理保留内存 (MRM)，旨在解决 AI 基础模型工作负载的存储和 IO 问题。MRM 具有短期数据持久性，可优化 AI 推理性能，同时降低能耗和成本。这一创新概念有望填补现有内存-存储层级中的空白，为 AI 时代的内存技术发展开辟新方向。

Microsoft 研究人员提出了一种名为管理保留内存 (MRM) 的新概念 - 这是一种具有短期持久性的存储级内存 (SCM)，专门针对 AI 基础模型工作负载进行 IO 优化。

Microsoft 首席研究软件工程师 Sergey Legtchenko 和其他研究人员在 Arxiv 上发表的论文中描述了 MRM，旨在解决 AI 集群中高带宽内存 (HBM) 的局限性。他们指出，HBM "由于多个原因对 AI 工作负载来说并不理想"，它"在写入性能方面过度配置，但在密度和读取带宽方面配置不足，同时每比特能耗显著。由于制造复杂性，其成本也很高，良率低于 DRAM。"

研究人员表示，SCM 方案 - 如英特尔已停产的 Optane 以及潜在的 MRAM、ReRAM 或 PCM (相变存储器) 替代方案 - 都假定在内存 (需要持续供电刷新以保留数据的易失性 DRAM) 和存储 (长期保存数据，以年计) 之间存在明显的界限。

他们说："这些技术传统上提供长期持久性 (10 年以上)，但 IO 性能和/或耐久性较差。" 例如："闪存单元的保留时间超过 10 年，但这是以牺牲每个存储单元的读写吞吐量为代价的，相比 DRAM 要低。这些特性意味着 DRAM 用作处理器的内存，而闪存用于二级存储。"

但从保留时间来看，这种界限实际上不必如此明显。保留时间存在一个从零到数十年甚至更长的连续谱。DRAM 在需要刷新之前确实会短暂保留数据。研究人员写道："非易失性是存储设备的一个关键属性，但在存储单元层面上这个概念其实具有误导性。对所有技术而言，存储单元只是提供一个保留时间，这是一个从 DRAM 的微秒到多年的连续体。"

通过默认支持这种明显的内存-存储分界概念，"支撑 SCM 的技术被迫要实现非易失性，要求其保留时间达到十年或更长。不幸的是，实现这种高保留时间需要在写入和读取延迟、能源效率和耐久性等其他指标上做出权衡。"

对于像推理这样的 AI 工作负载来说，具有非易失性的通用 SCM 是不必要的。这类工作负载需要高性能的模型权重和 KV 缓存数据顺序读取，但写入性能要求较低。由于此类工作负载规模巨大，需要一个新的内存类别，因为 HBM 的每比特读取能耗太高，而且"成本高昂，良率挑战显著"。

Microsoft 研究人员表示，他们理论上的 MRM "与易失性 DRAM 不同，它可以在断电时保留数据，且不会在频繁的单元刷新中浪费能量，但与 SCM 不同，它并不针对长期保留时间。由于大多数推理数据无需长期保存，保留时间可以放宽到几天或几小时。作为回报，MRM 具有更好的耐久性，并致力于在读取吞吐量、能源效率和容量等关键指标上超越 DRAM (和 HBM)。"

他们指出："由于 IO 是大规模且顺序的，因此不需要字节寻址"，这表明块寻址结构就足够了。

研究人员正在理论上定义一个新的内存类别，表示在内存-存储层次结构中存在一个特定于 AI 基础模型的空白，可以用适当的半导体技术来填补。这"为这一应用领域开启了更好内存的计算机架构研究领域。"

论文中的图表"显示了现有内存/存储技术的耐久性与工作负载耐久性要求之间的比较。在适用的情况下，我们区分了现有设备中观察到的耐久性和技术所展示的潜力。"耐久性是指可以持续进行写入循环的时间长度。"HBM 在耐久性方面过度配置，而现有的 SCM 设备虽然不能满足耐久性要求，但底层技术具有实现这一目标的潜力。"

Microsoft 研究人员表示："我们明确不局限于特定技术，而是强调一个机会空间。这是对从研究底层存储单元技术的人员，到思考内存控制器的人员，再到设计访问内存的软件系统的人员的行动召唤。为 AI 时代更好的内存而展开跨层级协作。"

他们总结道："我们提出了一种可以与 HBM 共存的新型内存类别 - 管理保留内存 (MRM)，它能够利用最初为 SCM 提出的内存技术，但通过权衡保留时间和写入吞吐量等指标，来改善这些 AI 工作负载所需的关键性能指标。通过放宽保留时间要求，MRM 有可能让现有提出的 SCM 技术提供更好的读取吞吐量、能源效率和密度。我们希望这篇论文能够真正开启对存储单元技术和内存芯片设计创新的新思维，专门针对 AI 推理集群的需求。"

来源：BLOCKS & FILES

0赞

好文章，需要你的鼓励

Microsoft 提出管理保留内存技术以应对 AI 工作负载

来源：BLOCKS & FILES

2025

01/26

16:07

分享

点赞

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

Confluent Cloud为智能体提供实时数据流处理能力

数字化转型失败的6个警示信号

OpenAI CEO阿尔特曼承认当前处于AI泡沫期

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: