DDN公司在SC25大会上推出了全新系统和统一的CORE AI及HPC数据平面,该架构覆盖了其EXAScaler Lustre(文件)和Infinia(对象)存储系统,同时发布了新的A1400X3i和A12200硬件产品。
该公司表示,其存储系统为超过11000个客户支持100万个GPU。EXAScaler是一款使用A1400X3系列硬件的Lustre并行文件系统存储产品,被广泛应用于HPC和超级计算安装中,如Nebius AI Neocloud,并在IO500 10节点类别存储列表中位居榜首。Infinia是其新开发的专注于AI的对象存储系统,在本地部署中使用A12200硬件。
DDN首席执行官Alex Bouzari声称:"我们之于数据,就如同英伟达之于计算。我们正在共同构建AI工厂时代的智能基础。"
该公司表示,正在用一个统一的数据引擎和数据平面来替代分散的HPC和AI系统,"将DDN经过验证的EXAScaler和Infinia技术整合到单一的高性能数据结构中,为整个AI生命周期提供支持、管理和优化——从模拟到训练、推理和检索增强生成(RAG)。"可以将CORE理解为位于本地部署的EXAScaler和Infinia以及公有云实例之上的软件抽象层,由DDN Insight软件进行管理。
客户可以在本地或云端运行DDN CORE,声称在任何环境中都能提供一致的AI数据性能。云端部署选择包括Google Cloud Managed Lustre,以及在Oracle Cloud Infrastructure(OCI)中运行的Infinia软件。DDN表示CORE还支持CoreWeave、Nebius和Scaleway云平台。
该公司声称CORE提供"高达15倍更快的检查点功能和4倍更快的模型加载速度,在生产AI环境中实现超过99%的GPU利用率",以及"集成缓存和Token重用可提供25倍更快的响应速度和每次查询降低60%的成本",还有"高达11倍更高的每瓦性能和40%更低的功耗",但未明确标识比较中使用的系统。
新的A1400X3i、SE-2和SE-4 EXAScaler Lustre并行文件系统存储阵列系统机箱尺寸为2RU。它们在控制器中使用AMD Genoa CPU,这些控制器管理通过PCIe gen 5连接的NVMe SSD的数据访问。这些系统与英伟达BlueField-3 DPU/NIC和Spectrum-X以太网结构集成。DDN表示A1400X3系列是英伟达DGX SuperPOD和英伟达云提供商的核心AI数据平台。
A1400X3i提供:
140 GBps顺序读取吞吐量和110 GB/s写入吞吐量,比上一代高出70%
每节点400万IOPS,单机架高达7000万IOPS
在功耗、冷却和空间方面节省40%的数据中心成本
新的AI2200 Infinia对象存储系统声称"为超大规模AI工厂将吞吐量和每瓦Token数量提升一倍",但未提及基准比较系统。
DDN推出了AI FASTRACK项目,以加快其系统的部署速度,承诺在数天和数周内完成部署,而非数月。该项目包括企业AI HyperPOD交钥匙配置、用于启动认证DDN环境的cloud.dd.com门户,以及Ignite AI,可在数周内将现有EXAScaler HPC集群转换为AI流水线。
该项目还包括基于EXAScaler的Google Cloud Managed Lustre和Oracle Cloud Infrastructure上的Infinia的正式发布。目前还没有关于Infinia在Google Cloud中运行或Lustre在OCI中运行的信息。
DDN的A1400X3i或A12200存储系统目前还没有可用性或数据表信息。我们已向DDN询问了CORE云覆盖、数据表和可用性信息。
DDN正在为法国价值5.44亿欧元(6.302亿美元)、1 exaflop的AI和研究超级计算机Alice Recoque提供存储。该计算机由Eviden(ATOS)建造,将使用AMD EPYC Venice CPU、Instinct MI430X GPU(每个GPU 432 GB HBM4和19.6 TB/s)和FPGA、Eviden BXI v3网络,全部集成到BullSequana XH3500平台中。该系统总共将有94个机架,将安装在法国CEA位于巴黎西南部Bruyères-le-Chatel的超大计算中心(TGCC)。
DDN总裁兼联合创始人Paul Bloch表示:"此次部署加强了DDN在先进HPC和AI数据智能基础设施方面的领导地位。通过在大规模范围内提供极致性能、效率和数据洞察,我们帮助加速发现,增强欧洲竞争力以应对高影响力挑战。"
Alice Recoque是一位法国计算机科学家,于2021年去世,享年91岁。
Q&A
Q1:DDN CORE是什么?它有什么作用?
A:DDN CORE是一个统一的AI和HPC数据平面架构,它将DDN的EXAScaler和Infinia技术整合到单一的高性能数据结构中,为整个AI生命周期提供支持、管理和优化,包括从模拟到训练、推理和检索增强生成。
Q2:A1400X3i存储系统有什么性能优势?
A:A1400X3i提供140 GBps顺序读取吞吐量和110 GB/s写入吞吐量,比上一代高出70%;每节点400万IOPS,单机架高达7000万IOPS;在功耗、冷却和空间方面节省40%的数据中心成本。
Q3:DDN AI FASTRACK项目能带来什么好处?
A:AI FASTRACK项目可以大大加快系统部署速度,承诺在数天和数周内完成部署而非数月。该项目包括企业AI HyperPOD交钥匙配置、云门户启动认证DDN环境,以及Ignite AI功能,可在数周内将现有HPC集群转换为AI流水线。
好文章,需要你的鼓励
最新调查显示,近半数CIO将AI采用和自动化提升列为未来五年的首要任务。超过三分之一的受访者将加强业务连续性和灾难恢复作为重点,同等比例的企业将人才技能发展列为优先事项。尽管AI投资成为焦点,但投资回报率仍不明朗,近三分之二的商业领袖估计AI投资回报率仅为50%或更低。
微软亚洲研究院与清华大学联合提出双向感知塑造技术,通过创新的两阶段训练方法解决AI视觉理解中的关键问题。该技术让AI学会正确聚焦重要视觉信息,避免被无关内容误导。仅用1.3万训练样本就在八个基准测试中平均提升8.2%性能,超越使用数十万样本的专门模型,为AI视觉推理能力提升开辟新路径。
红帽公司宣布收购伦敦AI公司Chatterbox Labs,该公司专注于模型测试和生成式AI护栏技术。此次收购将为红帽AI产品组合增加自动化AI风险评估、安全测试和治理功能。Chatterbox Labs的AI风险指标帮助企业验证数据和模型是否符合国际法规,提供模型无关的稳健性、公平性和可解释性测试。收购将增强红帽的AI安全能力,包括生成式AI护栏、模型透明度和预测性AI验证等功能。
上海交通大学研究团队开发了TimeBill框架,解决大语言模型在实时应用中的时间不确定性问题。该系统通过精确预测回答长度和执行时间,动态调整AI记忆管理策略,确保在规定时间内完成任务的同时保持回答质量。实验显示TimeBill在各种时间预算下都能实现最佳的完成率与性能平衡,为AI在自动驾驶、工业控制等安全关键领域的应用提供了重要技术支撑。