DDN 这家以高性能计算 (HPC) 闻名的公司recently获得了来自美国黑石集团 (Blackstone) 的3亿美元投资。据称这笔资金将用于将其在超级计算领域的领导地位转化为人工智能 (AI) 存储解决方案的优势。
虽然面向这两种工作负载的存储阵列在跟上极高性能处理方面有相似之处,但它们之间存在差异。HPC 工作负载涉及读取相对较少的数学公式来产生大量的模拟数据。
而在 AI 中则恰恰相反。在训练过程中需要读取海量数据来生成相对较小的模型,或在推理过程中根据应用程序或人类提示生成响应。
DDN EXAscaler 适应 AI 需求
DDN 在 HPC 市场销售其 EXAscaler 阵列。这些阵列使用开源的 Lustre 并行文件系统,该系统最初推出于约20年前。EXAscaler 阵列由多个磁盘驱动器组成,其中一个作为其他驱动器内容的索引。计算节点查询该节点以确定要读写数据块的其他节点,然后直接与该节点通信。
要运行该系统,计算节点必须运行 Lustre 客户端,并与所有存储节点建立直接网络连接。这通常意味着使用 Infiniband 连接,具有零数据包丢失特性,并且控制器能够直接复制主机机器上的随机访问内存 (RAM) 或非易失性内存快速通道 (NVMe) 存储中的数据。
DDN 已将这些功能整合到面向 AI 工作负载的 AI400X2 阵列中。这些阵列使用与 EXAscaler 相同的 2U 节点,但采用 Nvidia 以太网 SpectrumX 控制器卡。这些卡使用 Nvidia 的 BlueField DPU,为以太网带来了与 Infiniband 相同的优势。它们使用融合以太网上的 RDMA (RoCE),也意味着在直接写入 Nvidia 图形处理器 (GPU) 内存时不会丢失数据包 (使用 GPUdirect)。
DDN 的训练数据存储
AI400X2 主要用于在训练工作负载期间与 GPU 进行尽可能快速的通信。但对于企业可能想要存储的已训练模型产生的海量数据来说,这可能是一个非常昂贵的选择。
为此,DDN 自2023年起推出了 Infinia 阵列。这些阵列提供 S3 对象存储,能够无中断地添加驱动器。
DDN 已将 S3 存储功能卸载到容器中,如元数据服务器、存储服务器等。这意味着当特定的 S3 容器部署在计算节点上时,DDN 可以在 Infinia 中复制类似于 Lustre 的功能。Infinia 阵列还可以配备 SpectrumX 卡以最大化传输速度。
DDN 声称他们最了解密集型存储的工作原理。当 GPU 并行写入数据然后快速读取数据时,可能会出现不一致性问题。检查点可以调节这一点,但这是一个在处理过程中消耗资源的操作,且不会产生有用的数据。DDN 表示,通过精心管理数据流和缓存使用,可以避免这种延迟。
DDN 预告重大公告
DDN 在 AI 领域已有建树,其客户包括 Elon Musk 的 xAI,后者部署了一台名为 Colossus 的超级计算机,配备了100,000个 H100 GPU。因此,这笔新的3亿美元投资的具体用途尚不完全明确。
黑石集团可能正在多个 AI 相关企业中布局,现已在 DDN 董事会中占有一席之位。去年,该基金为 AI 基础设施即服务供应商 CoreWeave 提供了财务支持。
DDN 承诺将在2月20日发布重大公告,并以"我们让 AI 成为现实"为宣传语。
好文章,需要你的鼓励
华中科技大学与利哈伊大学研究团队开发的MMMR基准是首个专门评估多模态大语言模型推理思考过程的综合工具。通过1,083个跨六大领域的高难度推理任务和创新的推理过程评估管道,研究发现即使最先进的模型在推理任务上也与人类存在约10%的差距。研究揭示了答案准确性与推理质量间的脱节:模型常出现思考不一致(41.5%)、过度思考(20.5%)等问题。这一基准不仅评估答案正确性,更深入分析思考质量,为提升AI系统的可靠性和透明度提供了重要方向。
UI-Genie是一个创新的自我改进框架,解决了GUI智能体面临的两大挑战:轨迹验证困难和高质量训练数据缺乏。研究团队开发了专用奖励模型UI-Genie-RM,采用图像-文本交错架构有效处理历史上下文,并统一了步骤级和任务级奖励评估。通过精心设计的数据生成策略和迭代自我改进,该框架无需人工标注即可创建高质量合成轨迹。实验结果显示,经过三轮数据-模型自我改进后,UI-Genie在多个基准测试上达到了最先进水平。该研究已开源全部实现和数据集,为GUI智能体研究提供重要资源。
浙江大学和蚂蚁集团的研究团队开发了ACTIVE-O3,一种创新框架,赋予多模态大语言模型"主动感知"能力,使AI能够智能地决定"看哪里"和"怎么看"。基于群体相对策略优化(GRPO)构建,该系统采用两阶段策略,先选择关注区域,再执行任务。实验表明,ACTIVE-O3在小物体检测、密集物体定位和交互式分割等任务上显著优于现有方法,并展示出强大的零样本推理能力。该研究为AI系统提供了更接近人类认知的视觉探索能力,对自动驾驶、医疗诊断等领域具有重要应用价值。
ImgEdit是北京大学与兔小贝AI联合推出的图像编辑框架,解决了开源编辑模型落后于商业产品的问题。该框架包含120万对高质量编辑图像对,涵盖13种编辑类型和11万个多轮交互样本。通过融合视觉语言模型、检测模型和分割模型的多阶段流程,ImgEdit确保了数据的高质量性。研究团队基于此数据集训练了ImgEdit-E1模型,并提出ImgEdit-Bench评估基准,从指令遵循、编辑质量和细节保留三个维度全面评估模型性能。实验结果显示,ImgEdit-E1在多个任务上超越现有开源模型,推动了图像编辑技术的进步。