分析:存储阵列行业正在经历一场巨大的转型,朝着支持 AI 训练和推理的极致规模化和并行、多协议数据传输方向发展。双控制器阵列和横向扩展文件集群正逐渐成为过时的技术。
AI 训练的存储需求最初与以 DDN 的 ExaScaler 和 IBM 的 Storage Scale 为代表的 HPC 并行文件系统技术相撞,但效果并不理想。因为 AI 训练团队不想深入学习复杂的并行文件系统,他们只需要能够访问基本的文件数据和对象数据。他们需要低访问延迟 (意味着全闪存系统而非基于磁盘的系统)、快速的大小文件性能,以及超越数百 PB 甚至达到 EB 级别的超大容量。
VAST Data 是这场变革的领军者之一,六年前就宣布了其技术。此后,它在为如 xAI 等 AI 训练公司以及 CoreWeave 和 Lambda Labs 等 GPU 云运营商提供存储和 AI 数据栈 (包括 Data Space、Data Base、Data Engine、Insight Engine) 方面建立了领先优势。
另一个领导者是 WEKA,其并行化的 WekaFS 使用标准 NFS 和 SMB,在文件和 S3 对象数据传输速度上超过了 Dell PowerScale 和 Qumulo 等横向扩展文件系统供应商,直到 Qumulo 在云端最终追赶上来。Dell 在 2021 年就为 PowerScale 添加了 GPUDirect 支持。NetApp 在 2023 年 4 月跟进。日立 Vantara 在去年 3 月宣布支持 GPUDirect。GPUDirect 支持已成为基本要求,但仅靠它还不足以提供完整的 AI 存储能力。
Hammerspace 凭借其数据编排技术给传统厂商带来了更大压力。这项技术结合其 GPUDirect 支持、并行 NFS 支持以及对 GPU 服务器本地零层 SSD 存储的支持,使其能够从相对较慢的双控制器文件阵列和任何其他 NAS 及对象存储中快速传输数据到 GPU 服务器,将其视为通用数据空间。
VAST、WEKA 和 Hammerspace 的成功给传统的文件、对象阵列和并行文件系统供应商带来了挑战。作为回应,NetApp 宣布了 ONTAP Data Platform for AI 项目。Dell 表示将使 PowerScale 并行化。HPE OEM 了 VAST Data 的文件技术并开发了自己的 Alletra Storage MP 分离式计算和存储硬件。
DDN 在 2023 年底发布了提供快速访问块、文件和对象存储的 Infinia 软件,并在今年 2 月发布了 v2.0 更新,声称在 AI 数据加速方面提升了最多 100 倍,数据中心和云成本效率提高了 10 倍。这实际上表明其基于 Lustre 并行文件系统的 ExaScaler 技术面临局限,需要新的解决方案。
华为在 2024 年 5 月推出了 A800 AI 存储系统,称其具有分离数据和控制平面的横向扩展架构,以及支持 NFS、SMB、HDFS、S3、POSIX 和 MP-IO 的 OceanFS 高性能并行文件系统。A800 可提供 1 亿 IOPS 和 PB 级每秒带宽。这不会影响北美组织,但将在世界其他地区发挥作用。
Pure Storage 上周发布了 FlashBlade//EXA,其公告材料确定了快速文件和对象访问的三个技术阶段,从 Lustre 类型的并行文件系统开始:
这将文件元数据与底层对象数据分离,提供双层系统:对象数据节点和独立的元数据节点。访问客户端系统会从元数据节点获知所需数据的存储位置,文件会被分条存储在多个数据节点上,然后多个数据节点会并行传输其所存储的文件部分以加快传输速度。Pure 表示,当存在大量小文件时,这种方式会遇到问题,因为元数据节点会成为瓶颈。此外,客户端系统软件也很复杂。
下一阶段是将元数据和数据都存储在数据或存储节点中,同时使用独立的横向扩展计算节点进行数据访问计算 - 这是 VAST 风格的方法:
在最初的营销材料中,VAST 表示最多可以有 10,000 个无状态计算节点和 1,000 个数据节点,强调其提供的扩展容量。Pure 也指出了这种方式的问题,表示数据节点上可能出现写入瓶颈,导致性能不稳定,网络复杂性也可能成为问题。
让我们退一步思考,Pure Storage 现在是一个拥有众多 FlashBlade 客户的传统厂商,需要引入 VAST 类型的分离式计算和存储技术,同时不能放弃现有客户基础。联合创始人 John Colgrove 天才般地决定采用独立的元数据和数据存储节点 (类似于 Lustre),但将 FlashBlade 阵列作为元数据节点:
Pure 的 Fusion 凭借其舰队级全局存储池,可以将现有的 FlashBlade 数据移至 EXA 的数据节点。这些是简单的 JBOF,使用 24 个 Pure 专有的 Direct Flash Module,容量为 75 TB 和 150 TB,后续将推出 300 TB 及更大容量。它们提供相对低成本、高密度的存储。
Pure 表示,访问客户端系统 (如 GPU 服务器) 具有更简单的代理软件,并能在规模扩展时保持一致的写入性能。EXA 系统元数据节点使用 pNFS (基于 TCP 的 NFSv4.1) 与计算集群客户端通信,数据传输使用基于 RDMA 的 NFSv3。
EXA 系统可扩展至 EB 级别,带宽超过 10 TBps,单机架可达 3.4 TBps。该系统将在今年夏季正式上市,之后将推出基于 RDMA 的 S3、Nvidia 认证和 Fusion 集成。
现在 Pure 拥有了能够支持 AI 训练的存储系统,可以与 DDN 的 Infinia、Hammerspace、HPE 的 Alletra Storage MP、华为的 A800、VAST Data 和 WEKA 竞争。
VDURA 将在今年晚些时候提供 RDMA 和 GPUDirect 优化。对象存储供应商 MinIO 宣布支持基于 RDMA 的 S3,而 Cloudian 和 Scality 也宣布了向 Nvidia GPU 服务器快速传输对象的功能。
还有四家存储供应商在观望:Dell 的未来 PowerScale 并行化和 NetApp 的 ONTAP for AI 项目都尚未交付成果。Qumulo 虽然表示可以快速实现,但尚未承诺提供 GPUDirect 支持。Infinidat 也是如此。一旦 Infinidat 被联想收购,它可能会在现有的生成式 AI 推理工作负载 RAG 工作流部署架构之外支持 GPUDirect。
值得注意的是,Dell 一直在积极支持其服务器和 AI Factory 计划的 AI 工作负载。
除了这四家公司,其他主流传统文件和对象存储供应商都已经大幅重塑了他们的技术,以支持生成式 AI 对极致 EB 级存储容量、RDMA 级延迟和并行式读写数据访问的需求。
好文章,需要你的鼓励
IBM Spyre加速器将于本月晚些时候正式推出,为z17大型机、LinuxONE 5和Power11系统等企业级硬件的AI能力提供显著提升。该加速器基于定制芯片的PCIe卡,配备32个独立加速器核心,专为处理AI工作负载需求而设计。系统最多可配置48张Spyre卡,支持多模型AI处理,包括生成式AI和大语言模型,主要应用于金融交易欺诈检测等关键业务场景。
微软研究院提出潜在分区网络(LZN),首次实现生成建模、表示学习和分类任务的真正统一。该框架通过共享高斯潜在空间和创新的潜在对齐机制,让原本独立的AI任务协同工作。实验显示LZN不仅能增强现有模型性能,还能独立完成各类任务,多任务联合训练效果更是超越单独训练。这项研究为构建下一代通用AI系统提供了新的架构思路。
意大利初创公司Ganiga开发了AI驱动的智能垃圾分拣机器人Hoooly,能自动识别并分类垃圾和可回收物。该公司产品包括机器人垃圾桶、智能盖子和废物追踪软件,旨在解决全球塑料回收率不足10%的问题。2024年公司收入50万美元,已向谷歌和多个机场销售超120台设备,计划融资300万美元并拓展美国市场。
上海AI实验室开发的VLAC模型让机器人首次具备真实世界自主学习能力。该系统如同给机器人配备智能导师,能实时评估动作效果并从中学习。在四个操作任务测试中,机器人成功率从30%提升至90%,仅需200次练习。技术结合视觉、语言理解和动作生成,支持跨场景适应和人机协作,为家庭服务、医疗护理等领域应用奠定基础。