HPC 和 AI 并行文件系统存储供应商 VDURA 为其 V5000 硬件架构平台新增了一款高容量全闪存存储节点。
V5000 在三个多月前推出,具有中央纤薄型 (1RU) 控制节点来管理混合闪存+磁盘存储节点。这些存储节点由一个 1RU 服务器和一个 4RU JBOD 组成。整个系统运行 VDURA 数据平台 (VDP) v11 存储操作系统及其 PFS 并行文件系统。新的全闪存 F 节点是一个 1RU 服务器机箱,最多可容纳 12 个 128TB NVMe QLC SSD,提供 1.536PB 的原始容量。
VDURA CEO Ken Claffey 表示:"AI 工作负载需要持续的高性能和稳定的可靠性。这就是为什么我们设计 V5000 不仅要达到最高速度,而且要在面对硬件故障时也能保持这种性能。"
VDURA 称"该系统在确保 24x7x365 运行条件下数据持久性和可用性的同时,提供 GPU 饱和吞吐量。"
F 节点采用 AMD EPYC 9005 系列 CPU,配备 384GB 内存。系统配备 NVIDIA ConnectX-7 以太网 SmartNIC 以实现低延迟数据传输,另外还有三个 PCIe 和一个 OCP Gen 5 插槽用于高速前端和后端扩展连接。F 节点系统可以"从几个节点无缝扩展到数千个节点"。
VDURA 表示,结合全闪存 F 节点和混合闪存+磁盘节点的 V5000 系统提供了统一的高性能数据基础设施,支持 AI 流程的每个阶段,从模型训练到推理和长期存储。VDP 使用客户端擦除编码降低了 V5000 的计算开销,VDURA 声称 VDP 消除了"高频检查点造成的瓶颈"。
F 节点的最小配置是三个控制节点和三个闪存节点。两者都可以独立扩展以满足性能和/或容量需求。一个 42U 机架可容纳三个控制节点和 39 个闪存节点:59.9PB 的原始容量。
客户可以根据其工作负载要求,在同一命名空间中部署 V5000 混合和全闪存 (F 节点) 存储的组合,或将它们配置为独立的命名空间。
Nvidia 云合作伙伴 Radium 正在实施基于 V5000 的 GPU 云系统,为 H100 和 GH200 GPU 提供全带宽数据访问和模块化扩展 - 他们表示这意味着存储可以与 AI 计算需求同步增长,"避免过度配置"。
VDURA V5000 全闪存设备现已可供客户评估和认证,目前正在 AI 数据中心进行早期部署。该产品计划于今年晚些时候全面上市,RDMA 和 GPU Direct 优化功能计划于 2025 年推出。
好文章,需要你的鼓励
周一AWS美东数据中心DNS故障导致数百万用户和上千家企业断网,Reddit、Snapchat、银行和游戏平台均受影响。专家认为这凸显了冗余备份的重要性,CIO需要根据业务关键性进行风险评估,优先保护核心系统。单一供应商策略仍可行,但需通过多区域部署分散风险,建立故障转移计划。金融、医疗等高风险行业需更高冗余级别。
上海AI实验室等机构联合提出FrameThinker框架,革命性地改变了AI处理长视频的方式。该系统采用"侦探式"多轮推理,先快速扫描全视频获得概览,再有针对性地深入分析关键片段。通过两阶段训练和认知一致性验证,FrameThinker在多个视频理解基准测试中准确率平均提升10.4%,计算效率提高20倍以上,为AI视频理解领域带来突破性进展。
英国政府发布新的反勒索软件指导文件,旨在解决供应链安全薄弱环节。该指南与新加坡当局联合制定,帮助组织识别供应链问题并采取实际措施检查供应商安全性。英国国家网络安全中心过去一年处理了204起"国家重大"网络安全事件。指南强调选择安全可靠的供应商、加强合同网络安全条款、进行独立审计等措施,以提升供应链韧性和防范网络攻击。
复旦大学团队创建MedQ-Bench基准,首次系统评估AI模型医学影像质量评估能力。研究覆盖五大成像模式,设计感知-推理双层评估体系,意外发现医学专用AI表现不如通用AI。结果显示最佳AI模型准确率仅68.97%,远低于人类专家82.50%,揭示了AI在医学影像质控应用中的现实挑战和改进方向。