HPC 和 AI 并行文件系统存储供应商 VDURA 为其 V5000 硬件架构平台新增了一款高容量全闪存存储节点。
V5000 在三个多月前推出,具有中央纤薄型 (1RU) 控制节点来管理混合闪存+磁盘存储节点。这些存储节点由一个 1RU 服务器和一个 4RU JBOD 组成。整个系统运行 VDURA 数据平台 (VDP) v11 存储操作系统及其 PFS 并行文件系统。新的全闪存 F 节点是一个 1RU 服务器机箱,最多可容纳 12 个 128TB NVMe QLC SSD,提供 1.536PB 的原始容量。
VDURA CEO Ken Claffey 表示:"AI 工作负载需要持续的高性能和稳定的可靠性。这就是为什么我们设计 V5000 不仅要达到最高速度,而且要在面对硬件故障时也能保持这种性能。"
VDURA 称"该系统在确保 24x7x365 运行条件下数据持久性和可用性的同时,提供 GPU 饱和吞吐量。"
F 节点采用 AMD EPYC 9005 系列 CPU,配备 384GB 内存。系统配备 NVIDIA ConnectX-7 以太网 SmartNIC 以实现低延迟数据传输,另外还有三个 PCIe 和一个 OCP Gen 5 插槽用于高速前端和后端扩展连接。F 节点系统可以"从几个节点无缝扩展到数千个节点"。
VDURA 表示,结合全闪存 F 节点和混合闪存+磁盘节点的 V5000 系统提供了统一的高性能数据基础设施,支持 AI 流程的每个阶段,从模型训练到推理和长期存储。VDP 使用客户端擦除编码降低了 V5000 的计算开销,VDURA 声称 VDP 消除了"高频检查点造成的瓶颈"。
F 节点的最小配置是三个控制节点和三个闪存节点。两者都可以独立扩展以满足性能和/或容量需求。一个 42U 机架可容纳三个控制节点和 39 个闪存节点:59.9PB 的原始容量。
客户可以根据其工作负载要求,在同一命名空间中部署 V5000 混合和全闪存 (F 节点) 存储的组合,或将它们配置为独立的命名空间。
Nvidia 云合作伙伴 Radium 正在实施基于 V5000 的 GPU 云系统,为 H100 和 GH200 GPU 提供全带宽数据访问和模块化扩展 - 他们表示这意味着存储可以与 AI 计算需求同步增长,"避免过度配置"。
VDURA V5000 全闪存设备现已可供客户评估和认证,目前正在 AI 数据中心进行早期部署。该产品计划于今年晚些时候全面上市,RDMA 和 GPU Direct 优化功能计划于 2025 年推出。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
伊尔德兹技术大学团队通过词典手术和离线蒸馏,以不足20美元成本打造出专为土耳其语优化的200M参数句子嵌入模型,在语义相似度任务上超越了参数量更大的原版教师模型。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
LongLive-RAG由英伟达、USC与MIT联合提出,通过让AI检索自身生成的历史视频片段作为参考,解决长视频生成中的角色漂移和画面不一致问题。