分析:DDN 在 Nvidia GTC 2025 大会上发布了其高速对象存储设备 Inferno 和混合文件+对象技术 xFusionAI。让我们来分析这两项技术的特点。
从 AI 训练和推理的角度来看,DDN 拥有两种存储技术。其最初面向 HPC 的 EXAScaler 产品线提供基于 Lustre 的并行文件系统,该系统运行在配备 NVMe SSD 的横向扩展存储节点上,客户端软件在 GPU 服务器节点上执行。较新的 Infinia 技术提供了一个基础的键值存储,在其上层叠加了数据访问协议,首先是 S3 对象协议。文件、块等其他协议将随时间逐步添加。
2 月发布的 Infinia v2.0 旨在消除 AI 瓶颈、加速工作流程并支持复杂模型列表的扩展。DDN 表示,它提供实时数据服务、多租户、智能自动化,并具有"强大的 AI 原生架构"。
但它不支持文件访问,而迄今为止的大多数 AI 开发工作都使用快速文件访问,同时使用较慢的对象协议来访问海量非结构化数据存储。简单来说,在当今的 AI 领域,文件代表过去,但仍参与现在并与日益增长的对象访问共存,而对象访问在未来将变得越来越重要。在可预见的未来,AI 训练和推理领域将是一个混合文件+对象的世界。
Inferno 产品在 Infinia 存储的基础上增加了 Nvidia 的 Spectrum-X 交换机,具备 RoCE 自适应路由功能。DDN 表示,测试显示 Inferno 的性能比基于 AWS S3 的推理堆栈高出 12 倍,具有亚毫秒级延迟和 99% 的 GPU 利用率。DDN 指出,Inferno "是一款高密度、低功耗的 1RU 设备,配备 2 个或 4 个 BlueField"。这些是 Nvidia 的基于 Arm 的智能网卡,可与 Nvidia GPU 服务器中的 BlueField 连接。
Inferno 使用"高性能 NVMe 驱动器实现超低延迟...支持无缝扩展",并且"针对 AI 模型训练和推理进行了优化"。它"与 DDN 的 AI 和 HPC 生态系统完全优化,确保部署流程简化"。
目前没有公开的 Inferno 配置或可用性信息。如果这样的设备使用 122 TB QLC SSD,那么我们可能会看到一个具有 1.2 PB 容量的十槽机箱。一个包含 30 个此类设备的机架将具有 36 PB 容量,采用基于 NVMe/GPUDirect for Objects 的网络结构,由 BlueField-3 通过 Spectrum-X 网络与连接到 GPU 服务器的 BlueField-3 通信。
DDN 将 xFusionAI 技术描述为不同的解决方案,称其"被设计为集成的 AI 存储和数据管理解决方案,在高速并行文件存储和经济高效的对象存储之间实现 AI 工作流的平衡...存储是一个单一池,在 EXAScaler 和 Infinia 之间进行逻辑分区,而不是两个完全独立的系统。xFusionAI 可以部署在统一的硬件基础设施上,EXAScaler 和 Infinia 软件组件在同一系统内运行。"
它"具有单一用户界面,可提供对 EXAScaler 和 Infinia 环境的可视性和控制,确保管理流程简化。"
供应商表示,Infinia 不仅仅是后端对象存储,它还作为智能数据管理层来补充 EXAScaler 的高速文件性能。数据可以通过自动化策略或手动分层在 EXAScaler 和 Infinia 之间移动,使用户能够优化存储成本和性能。
实际上,我们看到高速文件存储 (EXAScaler) 被添加到 Infinia 中,这可能是在 Infinia 的原生文件系统支持到来之前的临时解决方案。这意味着 xFusionAI 控制器将比 Inferno (仅 Infinia 对象) 控制器更强大,因为它们必须管理文件和对象环境并在它们之间"移动"数据。我们在"移动"上加引号是因为数据可能实际上并不会物理移动;它可能以某种方式重新映射,使其从 EXAScaler 分区传输到 Infinia 分区,反之亦然。当然,如果 Infinia 分区使用较慢的 QLC 驱动器,而 EXAScaler 分区使用较快的 TLC 驱动器,那么数据将会物理移动。
随着细节的逐步披露,了解这个混合系统将会很有趣。一个重要见解是,xFusionAI 为 DDN 提供了一个组合的文件+对象 AI 训练和推理存储系统,可以与 VAST Data 的混合文件+对象存储竞争,后者还具有块访问功能,这在目前的 AI 世界中不太重要。DDN 表示,"产品即将推出。价格详情可根据要求提供,具体取决于配置、容量和部署规模。"
好文章,需要你的鼓励
OpenAI 发布三款全新专有语音模型,包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。这些模型基于 GPT-4o 开发,提供更准确的转录和语音合成能力,支持 100 多种语言,可通过 API 集成到第三方应用中。新模型在英语转录准确率方面表现出色,错误率仅为 2.46%,并支持语音定制和情感表达。
Nvidia 推出 DGX Cloud 基准测试工具包,帮助企业和开发者评估其基础设施运行先进 AI 模型的能力。该工具包提供性能测试容器和脚本,可在不同配置下测试 AI 模型性能,支持企业在大规模部署 AI 工作负载前做出明智决策,优化基础设施效能。
Nvidia 宣布与电力行业研发机构 EPRI 合作,利用 AI 技术解决电网面临的挑战。讽刺的是,这些问题主要源于 AI 本身带来的用电需求激增。Open Power AI 联盟将开源特定领域的 AI 模型,以应对电力行业未来的挑战,包括数据中心用电激增、可再生能源整合等问题。
NVIDIA 正全力打造从硬件到软件再到开发者工具的全栈式 AI 解决方案。在 2025 年 GPU 技术大会上,CEO 黄仁勋详细介绍了新一代 Blackwell B300 GPU、企业级 AI 超级计算机以及 AI 推理模型等创新产品,展现了 NVIDIA 在云计算、企业 IT、制造业和机器人等领域的全方位布局,致力于将 AI 技术推广到更广泛的应用场景。