AI 存储新突破:Pure Storage FlashBlade//EXA 提升性能与扩展性

Pure Storage 推出新型存储平台 FlashBlade//EXA,旨在解决 AI 工作负载中的元数据挑战。该平台基于 FlashBlade 基础架构,通过独立扩展数据和元数据来提高并发性能。它支持多模态 AI 模型,初始读取性能可达 10TB/秒。该平台兼容其他厂商的数据节点,同时利用 Pure Storage 自身技术,为企业级 AI 应用提供灵活、高性能的存储解决方案。

在过去两年中,生成式 AI 已经渗透到科技巨头和各类企业中,这促使从硬件制造商到组件供应商再到企业应用开发商在内的 IT 供应商们快速调整其发展路线,以应对这一新兴技术带来的特殊需求和机遇。

Pure Storage 技术副总裁 Chadd Kenney 表示,这包括众多数据存储系统制造商,他们此前已经解决了 HPC 中心和其他大规模计算组织带来的扩展性挑战。但这些存储系统(包括并行文件系统和分离式存储)并不能完全满足 AI 环境的需求。

Kenney 向 The Next Platform 解释说,与传统应用相比,AI 工作负载更难预测、更复杂,且具有多模态特性 - 需要处理和输出文本、图像和视频。虽然现有工作负载的性能和可扩展性已经得到保证,但对于包含数千到数万个昂贵 GPU 的 AI 环境来说却不尽如人意。企业反馈称,由于存储瓶颈的限制,他们无法充分利用所有 GPU,性能(本质上是持续读写的能力)和可扩展性都受到影响。

"随着模型的发展变得更加多模态化,许多企业开始意识到这不再仅仅是基于文本的问题,"他说。"现在这些系统必须处理各种不同类型的媒体,这与传统的 HPC 工作负载有很大的不同。虽然这些工作负载类型存在差异,但它们在数据处理方式上往往相对一致。"

同时,多个不同命名空间的需求以及管道不同部分的新型产品都增加了复杂性,这些都导致了高成本和低投资回报率。

对 Pure Storage 来说,最大的痛点出现在特定市场细分领域。Kenney 表示,其横向扩展的 FlashBlade 存储平台已被数百个组织用于企业工作负载。同样,Pure Storage 最近还宣布与 Meta Platforms 达成设计合作,这是该公司首次与超大规模企业合作,为公司打入超高端市场奠定基础,这些企业在其系统中运行着数万个 GPU,需要持续供给数据。

但根据 Kenney 的说法,市场中间部分的客户 - 那些运行一个到数万个 GPU,需要存储阵列提供 1TB/秒到 50TB/秒性能,正在建设 Nvidia 所说的 AI 工厂的客户 - Pure Storage 和几乎所有其他公司都未能很好地满足他们的需求。

"目前购买大多数 GPU 的人都在进行大规模训练,"Kenney 解释道。"我们想了解这些客户的需求。我们知道企业级需求是什么。对于大多数客户来说,每秒一太字节就足够了,因为他们仍处于早期实验阶段。我们看到的大多数企业通常拥有不到一千个 GPU。超大规模企业则处于超高端,他们需要每秒 50+ 太字节的性能,而且他们正在构建完全不同的架构。在超大规模设计合作过程中,我们学到了很多,这让我们开始以不同于以往的方式思考我们的产品。"

这种思考促使 Pure 本周推出了 FlashBlade//EXA,这是一个建立在 FlashBlade 基础设施之上的存储平台,专注于高并发性和 HPC 与 AI 工作负载中大量元数据的处理,这些元数据一直是导致 AI 性能受阻的存储瓶颈的主要原因。FlashBlade//EXA 通过独立扩展数据和元数据来解决这个问题。

在尝试解决元数据挑战时,Pure Storage 考虑了两个概念。一个是为 HPC 构建的并行文件系统,在可扩展性和性能方面表现出色,但在升级厚客户端和管理系统方面比较复杂。另一个是分离式架构,这种架构在当前 AI 时代之前就已存在,但存在自身的性能瓶颈,特别是在写入方面,因为元数据和数据摄入都在同一层进行。

Kenney 表示,Pure Storage 工程师知道 FlashBlade 中的元数据经过高度优化,但供应商希望通过传统协议实现数据节点的无限扩展,便于企业轻松将其引入其环境中。

"我们使用 FlashBlade 作为元数据核心构建了这个 FlashBlade//EXA 架构,然后利用数据节点实现超高可扩展性,允许您根据需要灵活地向任何方向扩展,"他说。"如果您真的需要,可以拥有十个数据节点和大量元数据节点来处理极小的文件。您也可以拥有许多数据节点和只有一个元数据节点。这个扩展模型没有限制。该平台现在成为 FlashBlade 的扩展。"

他补充说,高度分离和并行的架构将消除多模态模型的性能影响,并将在单个命名空间中开始提供 10TB/秒的读取性能。此外,组织可以使用一些现成的技术 - 它与其他存储制造商的数据节点兼容,而 FlashBlade 将用于元数据 - 以及 Pure Storage 自己的技术。

"从一开始就会提供这些现成的数据节点,因为当我们开始与客户讨论这个可能性时,他们就提出了这个要求,"Kenney 说。"他们希望立即利用现有投资。"

Pure 计划提供基于其 DirectFlash Module (DFM) 构建的数据节点,起始容量为 75TB 和 150TB,后续将提供 300TB,可在 2U 模型中提供 1.8PB 到 7.2PB 的容量。

Pure 本月开始让客户测试该平台,约有十几个客户正在进行概念验证,计划在今年夏天正式发布。系统最初将支持 pNFS 访问,之后将提供基于 RDMA 的 S3 支持,以及 DFM 数据节点、Nvidia 认证和与 Pure 的 Fusion 存储即代码服务的集成。

来源:The Next Platform

0赞

好文章,需要你的鼓励

2025

04/02

09:46

分享

点赞

邮件订阅