AI 时代下存储阵列的极致规模与并行化转型

存储阵列行业正在发生巨大转变,转向支持AI训练和推理的极度规模化、并行化和多协议数据传输。传统的双控制器阵列和横向扩展文件集群正逐渐被淘汰。新一代存储系统具有超大容量、低延迟、高性能和多协议支持等特点,能够满足AI对数据的海量需求。VAST Data、WEKA等新兴公司引领了这一变革,传统厂商也纷纷推出相应的产品和解决方案来应对挑战。

分析:存储阵列行业正在经历一场巨大的转型,朝着支持 AI 训练和推理的极致规模化和并行、多协议数据传输方向发展。双控制器阵列和横向扩展文件集群正逐渐成为过时的技术。

AI 训练的存储需求最初与以 DDN 的 ExaScaler 和 IBM 的 Storage Scale 为代表的 HPC 并行文件系统技术相撞,但效果并不理想。因为 AI 训练团队不想深入学习复杂的并行文件系统,他们只需要能够访问基本的文件数据和对象数据。他们需要低访问延迟 (意味着全闪存系统而非基于磁盘的系统)、快速的大小文件性能,以及超越数百 PB 甚至达到 EB 级别的超大容量。

VAST Data 是这场变革的领军者之一,六年前就宣布了其技术。此后,它在为如 xAI 等 AI 训练公司以及 CoreWeave 和 Lambda Labs 等 GPU 云运营商提供存储和 AI 数据栈 (包括 Data Space、Data Base、Data Engine、Insight Engine) 方面建立了领先优势。

另一个领导者是 WEKA,其并行化的 WekaFS 使用标准 NFS 和 SMB,在文件和 S3 对象数据传输速度上超过了 Dell PowerScale 和 Qumulo 等横向扩展文件系统供应商,直到 Qumulo 在云端最终追赶上来。Dell 在 2021 年就为 PowerScale 添加了 GPUDirect 支持。NetApp 在 2023 年 4 月跟进。日立 Vantara 在去年 3 月宣布支持 GPUDirect。GPUDirect 支持已成为基本要求,但仅靠它还不足以提供完整的 AI 存储能力。

Hammerspace 凭借其数据编排技术给传统厂商带来了更大压力。这项技术结合其 GPUDirect 支持、并行 NFS 支持以及对 GPU 服务器本地零层 SSD 存储的支持,使其能够从相对较慢的双控制器文件阵列和任何其他 NAS 及对象存储中快速传输数据到 GPU 服务器,将其视为通用数据空间。

VAST、WEKA 和 Hammerspace 的成功给传统的文件、对象阵列和并行文件系统供应商带来了挑战。作为回应,NetApp 宣布了 ONTAP Data Platform for AI 项目。Dell 表示将使 PowerScale 并行化。HPE OEM 了 VAST Data 的文件技术并开发了自己的 Alletra Storage MP 分离式计算和存储硬件。

DDN 在 2023 年底发布了提供快速访问块、文件和对象存储的 Infinia 软件,并在今年 2 月发布了 v2.0 更新,声称在 AI 数据加速方面提升了最多 100 倍,数据中心和云成本效率提高了 10 倍。这实际上表明其基于 Lustre 并行文件系统的 ExaScaler 技术面临局限,需要新的解决方案。

华为在 2024 年 5 月推出了 A800 AI 存储系统,称其具有分离数据和控制平面的横向扩展架构,以及支持 NFS、SMB、HDFS、S3、POSIX 和 MP-IO 的 OceanFS 高性能并行文件系统。A800 可提供 1 亿 IOPS 和 PB 级每秒带宽。这不会影响北美组织,但将在世界其他地区发挥作用。

Pure Storage 上周发布了 FlashBlade//EXA,其公告材料确定了快速文件和对象访问的三个技术阶段,从 Lustre 类型的并行文件系统开始:

这将文件元数据与底层对象数据分离,提供双层系统:对象数据节点和独立的元数据节点。访问客户端系统会从元数据节点获知所需数据的存储位置,文件会被分条存储在多个数据节点上,然后多个数据节点会并行传输其所存储的文件部分以加快传输速度。Pure 表示,当存在大量小文件时,这种方式会遇到问题,因为元数据节点会成为瓶颈。此外,客户端系统软件也很复杂。

下一阶段是将元数据和数据都存储在数据或存储节点中,同时使用独立的横向扩展计算节点进行数据访问计算 - 这是 VAST 风格的方法:

在最初的营销材料中,VAST 表示最多可以有 10,000 个无状态计算节点和 1,000 个数据节点,强调其提供的扩展容量。Pure 也指出了这种方式的问题,表示数据节点上可能出现写入瓶颈,导致性能不稳定,网络复杂性也可能成为问题。

让我们退一步思考,Pure Storage 现在是一个拥有众多 FlashBlade 客户的传统厂商,需要引入 VAST 类型的分离式计算和存储技术,同时不能放弃现有客户基础。联合创始人 John Colgrove 天才般地决定采用独立的元数据和数据存储节点 (类似于 Lustre),但将 FlashBlade 阵列作为元数据节点:

Pure 的 Fusion 凭借其舰队级全局存储池,可以将现有的 FlashBlade 数据移至 EXA 的数据节点。这些是简单的 JBOF,使用 24 个 Pure 专有的 Direct Flash Module,容量为 75 TB 和 150 TB,后续将推出 300 TB 及更大容量。它们提供相对低成本、高密度的存储。

Pure 表示,访问客户端系统 (如 GPU 服务器) 具有更简单的代理软件,并能在规模扩展时保持一致的写入性能。EXA 系统元数据节点使用 pNFS (基于 TCP 的 NFSv4.1) 与计算集群客户端通信,数据传输使用基于 RDMA 的 NFSv3。

EXA 系统可扩展至 EB 级别,带宽超过 10 TBps,单机架可达 3.4 TBps。该系统将在今年夏季正式上市,之后将推出基于 RDMA 的 S3、Nvidia 认证和 Fusion 集成。

现在 Pure 拥有了能够支持 AI 训练的存储系统,可以与 DDN 的 Infinia、Hammerspace、HPE 的 Alletra Storage MP、华为的 A800、VAST Data 和 WEKA 竞争。

VDURA 将在今年晚些时候提供 RDMA 和 GPUDirect 优化。对象存储供应商 MinIO 宣布支持基于 RDMA 的 S3,而 Cloudian 和 Scality 也宣布了向 Nvidia GPU 服务器快速传输对象的功能。

还有四家存储供应商在观望:Dell 的未来 PowerScale 并行化和 NetApp 的 ONTAP for AI 项目都尚未交付成果。Qumulo 虽然表示可以快速实现,但尚未承诺提供 GPUDirect 支持。Infinidat 也是如此。一旦 Infinidat 被联想收购,它可能会在现有的生成式 AI 推理工作负载 RAG 工作流部署架构之外支持 GPUDirect。

值得注意的是,Dell 一直在积极支持其服务器和 AI Factory 计划的 AI 工作负载。

除了这四家公司,其他主流传统文件和对象存储供应商都已经大幅重塑了他们的技术,以支持生成式 AI 对极致 EB 级存储容量、RDMA 级延迟和并行式读写数据访问的需求。

来源:BLOCKS & FILES

0赞

好文章,需要你的鼓励

2025

03/18

10:13

分享

点赞

邮件订阅