DDN公司在SC25大会上推出了全新系统和统一的CORE AI及HPC数据平面,该架构覆盖了其EXAScaler Lustre(文件)和Infinia(对象)存储系统,同时发布了新的A1400X3i和A12200硬件产品。
该公司表示,其存储系统为超过11000个客户支持100万个GPU。EXAScaler是一款使用A1400X3系列硬件的Lustre并行文件系统存储产品,被广泛应用于HPC和超级计算安装中,如Nebius AI Neocloud,并在IO500 10节点类别存储列表中位居榜首。Infinia是其新开发的专注于AI的对象存储系统,在本地部署中使用A12200硬件。
DDN首席执行官Alex Bouzari声称:"我们之于数据,就如同英伟达之于计算。我们正在共同构建AI工厂时代的智能基础。"
该公司表示,正在用一个统一的数据引擎和数据平面来替代分散的HPC和AI系统,"将DDN经过验证的EXAScaler和Infinia技术整合到单一的高性能数据结构中,为整个AI生命周期提供支持、管理和优化——从模拟到训练、推理和检索增强生成(RAG)。"可以将CORE理解为位于本地部署的EXAScaler和Infinia以及公有云实例之上的软件抽象层,由DDN Insight软件进行管理。
客户可以在本地或云端运行DDN CORE,声称在任何环境中都能提供一致的AI数据性能。云端部署选择包括Google Cloud Managed Lustre,以及在Oracle Cloud Infrastructure(OCI)中运行的Infinia软件。DDN表示CORE还支持CoreWeave、Nebius和Scaleway云平台。
该公司声称CORE提供"高达15倍更快的检查点功能和4倍更快的模型加载速度,在生产AI环境中实现超过99%的GPU利用率",以及"集成缓存和Token重用可提供25倍更快的响应速度和每次查询降低60%的成本",还有"高达11倍更高的每瓦性能和40%更低的功耗",但未明确标识比较中使用的系统。
新的A1400X3i、SE-2和SE-4 EXAScaler Lustre并行文件系统存储阵列系统机箱尺寸为2RU。它们在控制器中使用AMD Genoa CPU,这些控制器管理通过PCIe gen 5连接的NVMe SSD的数据访问。这些系统与英伟达BlueField-3 DPU/NIC和Spectrum-X以太网结构集成。DDN表示A1400X3系列是英伟达DGX SuperPOD和英伟达云提供商的核心AI数据平台。
A1400X3i提供:
140 GBps顺序读取吞吐量和110 GB/s写入吞吐量,比上一代高出70%
每节点400万IOPS,单机架高达7000万IOPS
在功耗、冷却和空间方面节省40%的数据中心成本
新的AI2200 Infinia对象存储系统声称"为超大规模AI工厂将吞吐量和每瓦Token数量提升一倍",但未提及基准比较系统。
DDN推出了AI FASTRACK项目,以加快其系统的部署速度,承诺在数天和数周内完成部署,而非数月。该项目包括企业AI HyperPOD交钥匙配置、用于启动认证DDN环境的cloud.dd.com门户,以及Ignite AI,可在数周内将现有EXAScaler HPC集群转换为AI流水线。
该项目还包括基于EXAScaler的Google Cloud Managed Lustre和Oracle Cloud Infrastructure上的Infinia的正式发布。目前还没有关于Infinia在Google Cloud中运行或Lustre在OCI中运行的信息。
DDN的A1400X3i或A12200存储系统目前还没有可用性或数据表信息。我们已向DDN询问了CORE云覆盖、数据表和可用性信息。
DDN正在为法国价值5.44亿欧元(6.302亿美元)、1 exaflop的AI和研究超级计算机Alice Recoque提供存储。该计算机由Eviden(ATOS)建造,将使用AMD EPYC Venice CPU、Instinct MI430X GPU(每个GPU 432 GB HBM4和19.6 TB/s)和FPGA、Eviden BXI v3网络,全部集成到BullSequana XH3500平台中。该系统总共将有94个机架,将安装在法国CEA位于巴黎西南部Bruyères-le-Chatel的超大计算中心(TGCC)。
DDN总裁兼联合创始人Paul Bloch表示:"此次部署加强了DDN在先进HPC和AI数据智能基础设施方面的领导地位。通过在大规模范围内提供极致性能、效率和数据洞察,我们帮助加速发现,增强欧洲竞争力以应对高影响力挑战。"
Alice Recoque是一位法国计算机科学家,于2021年去世,享年91岁。
Q&A
Q1:DDN CORE是什么?它有什么作用?
A:DDN CORE是一个统一的AI和HPC数据平面架构,它将DDN的EXAScaler和Infinia技术整合到单一的高性能数据结构中,为整个AI生命周期提供支持、管理和优化,包括从模拟到训练、推理和检索增强生成。
Q2:A1400X3i存储系统有什么性能优势?
A:A1400X3i提供140 GBps顺序读取吞吐量和110 GB/s写入吞吐量,比上一代高出70%;每节点400万IOPS,单机架高达7000万IOPS;在功耗、冷却和空间方面节省40%的数据中心成本。
Q3:DDN AI FASTRACK项目能带来什么好处?
A:AI FASTRACK项目可以大大加快系统部署速度,承诺在数天和数周内完成部署而非数月。该项目包括企业AI HyperPOD交钥匙配置、云门户启动认证DDN环境,以及Ignite AI功能,可在数周内将现有HPC集群转换为AI流水线。
好文章,需要你的鼓励
网络流量保护专家Cloudflare因其Access零信任平台发生故障向客户道歉,该故障导致包括OpenAI的ChatGPT、DownDetector和社交媒体平台X在内的多个面向公众的服务中断。故障始于英国时间上午11点20分左右,最初被描述为"内部服务降级"。Cloudflare后续确认故障根本原因是自动生成的配置文件超出预期大小并触发软件系统崩溃,强调这并非攻击所致。
香港科技大学团队发表重要研究,开发GIR-Bench测试基准评估统一多模态AI模型的推理与生成能力。研究发现即使最先进的AI模型在理解与生成之间也存在显著差距,无法有效将推理过程转化为准确的视觉生成,为AI行业发展提供重要警示。
戴尔PowerScale文件系统存储现已作为Azure托管服务提供,PowerStore块存储成为微软Azure Local产品的选项。PowerScale支持高达8.4 PB单一命名空间存储,性能比竞争对手高出4倍。Azure Local与戴尔私有云和PowerStore的集成预计于2026年春季进入早期访问阶段。
Meta超级智能实验室联合麻省理工学院开发了SPG三明治策略梯度方法,专门解决扩散语言模型强化学习训练中的技术难题。该方法通过上下界策略为AI模型提供精确的奖惩反馈机制,在数学和逻辑推理任务上实现了显著性能提升,为AI写作助手的智能化发展提供了新的技术路径。