DDN 这家以高性能计算 (HPC) 闻名的公司recently获得了来自美国黑石集团 (Blackstone) 的3亿美元投资。据称这笔资金将用于将其在超级计算领域的领导地位转化为人工智能 (AI) 存储解决方案的优势。
虽然面向这两种工作负载的存储阵列在跟上极高性能处理方面有相似之处,但它们之间存在差异。HPC 工作负载涉及读取相对较少的数学公式来产生大量的模拟数据。
而在 AI 中则恰恰相反。在训练过程中需要读取海量数据来生成相对较小的模型,或在推理过程中根据应用程序或人类提示生成响应。
DDN EXAscaler 适应 AI 需求
DDN 在 HPC 市场销售其 EXAscaler 阵列。这些阵列使用开源的 Lustre 并行文件系统,该系统最初推出于约20年前。EXAscaler 阵列由多个磁盘驱动器组成,其中一个作为其他驱动器内容的索引。计算节点查询该节点以确定要读写数据块的其他节点,然后直接与该节点通信。
要运行该系统,计算节点必须运行 Lustre 客户端,并与所有存储节点建立直接网络连接。这通常意味着使用 Infiniband 连接,具有零数据包丢失特性,并且控制器能够直接复制主机机器上的随机访问内存 (RAM) 或非易失性内存快速通道 (NVMe) 存储中的数据。
DDN 已将这些功能整合到面向 AI 工作负载的 AI400X2 阵列中。这些阵列使用与 EXAscaler 相同的 2U 节点,但采用 Nvidia 以太网 SpectrumX 控制器卡。这些卡使用 Nvidia 的 BlueField DPU,为以太网带来了与 Infiniband 相同的优势。它们使用融合以太网上的 RDMA (RoCE),也意味着在直接写入 Nvidia 图形处理器 (GPU) 内存时不会丢失数据包 (使用 GPUdirect)。
DDN 的训练数据存储
AI400X2 主要用于在训练工作负载期间与 GPU 进行尽可能快速的通信。但对于企业可能想要存储的已训练模型产生的海量数据来说,这可能是一个非常昂贵的选择。
为此,DDN 自2023年起推出了 Infinia 阵列。这些阵列提供 S3 对象存储,能够无中断地添加驱动器。
DDN 已将 S3 存储功能卸载到容器中,如元数据服务器、存储服务器等。这意味着当特定的 S3 容器部署在计算节点上时,DDN 可以在 Infinia 中复制类似于 Lustre 的功能。Infinia 阵列还可以配备 SpectrumX 卡以最大化传输速度。
DDN 声称他们最了解密集型存储的工作原理。当 GPU 并行写入数据然后快速读取数据时,可能会出现不一致性问题。检查点可以调节这一点,但这是一个在处理过程中消耗资源的操作,且不会产生有用的数据。DDN 表示,通过精心管理数据流和缓存使用,可以避免这种延迟。
DDN 预告重大公告
DDN 在 AI 领域已有建树,其客户包括 Elon Musk 的 xAI,后者部署了一台名为 Colossus 的超级计算机,配备了100,000个 H100 GPU。因此,这笔新的3亿美元投资的具体用途尚不完全明确。
黑石集团可能正在多个 AI 相关企业中布局,现已在 DDN 董事会中占有一席之位。去年,该基金为 AI 基础设施即服务供应商 CoreWeave 提供了财务支持。
DDN 承诺将在2月20日发布重大公告,并以"我们让 AI 成为现实"为宣传语。
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。