在过去两年中,生成式 AI 已经渗透到科技巨头和各类企业中,这促使从硬件制造商到组件供应商再到企业应用开发商在内的 IT 供应商们快速调整其发展路线,以应对这一新兴技术带来的特殊需求和机遇。
Pure Storage 技术副总裁 Chadd Kenney 表示,这包括众多数据存储系统制造商,他们此前已经解决了 HPC 中心和其他大规模计算组织带来的扩展性挑战。但这些存储系统(包括并行文件系统和分离式存储)并不能完全满足 AI 环境的需求。
Kenney 向 The Next Platform 解释说,与传统应用相比,AI 工作负载更难预测、更复杂,且具有多模态特性 - 需要处理和输出文本、图像和视频。虽然现有工作负载的性能和可扩展性已经得到保证,但对于包含数千到数万个昂贵 GPU 的 AI 环境来说却不尽如人意。企业反馈称,由于存储瓶颈的限制,他们无法充分利用所有 GPU,性能(本质上是持续读写的能力)和可扩展性都受到影响。
"随着模型的发展变得更加多模态化,许多企业开始意识到这不再仅仅是基于文本的问题,"他说。"现在这些系统必须处理各种不同类型的媒体,这与传统的 HPC 工作负载有很大的不同。虽然这些工作负载类型存在差异,但它们在数据处理方式上往往相对一致。"
同时,多个不同命名空间的需求以及管道不同部分的新型产品都增加了复杂性,这些都导致了高成本和低投资回报率。
对 Pure Storage 来说,最大的痛点出现在特定市场细分领域。Kenney 表示,其横向扩展的 FlashBlade 存储平台已被数百个组织用于企业工作负载。同样,Pure Storage 最近还宣布与 Meta Platforms 达成设计合作,这是该公司首次与超大规模企业合作,为公司打入超高端市场奠定基础,这些企业在其系统中运行着数万个 GPU,需要持续供给数据。
但根据 Kenney 的说法,市场中间部分的客户 - 那些运行一个到数万个 GPU,需要存储阵列提供 1TB/秒到 50TB/秒性能,正在建设 Nvidia 所说的 AI 工厂的客户 - Pure Storage 和几乎所有其他公司都未能很好地满足他们的需求。
"目前购买大多数 GPU 的人都在进行大规模训练,"Kenney 解释道。"我们想了解这些客户的需求。我们知道企业级需求是什么。对于大多数客户来说,每秒一太字节就足够了,因为他们仍处于早期实验阶段。我们看到的大多数企业通常拥有不到一千个 GPU。超大规模企业则处于超高端,他们需要每秒 50+ 太字节的性能,而且他们正在构建完全不同的架构。在超大规模设计合作过程中,我们学到了很多,这让我们开始以不同于以往的方式思考我们的产品。"
这种思考促使 Pure 本周推出了 FlashBlade//EXA,这是一个建立在 FlashBlade 基础设施之上的存储平台,专注于高并发性和 HPC 与 AI 工作负载中大量元数据的处理,这些元数据一直是导致 AI 性能受阻的存储瓶颈的主要原因。FlashBlade//EXA 通过独立扩展数据和元数据来解决这个问题。
在尝试解决元数据挑战时,Pure Storage 考虑了两个概念。一个是为 HPC 构建的并行文件系统,在可扩展性和性能方面表现出色,但在升级厚客户端和管理系统方面比较复杂。另一个是分离式架构,这种架构在当前 AI 时代之前就已存在,但存在自身的性能瓶颈,特别是在写入方面,因为元数据和数据摄入都在同一层进行。
Kenney 表示,Pure Storage 工程师知道 FlashBlade 中的元数据经过高度优化,但供应商希望通过传统协议实现数据节点的无限扩展,便于企业轻松将其引入其环境中。
"我们使用 FlashBlade 作为元数据核心构建了这个 FlashBlade//EXA 架构,然后利用数据节点实现超高可扩展性,允许您根据需要灵活地向任何方向扩展,"他说。"如果您真的需要,可以拥有十个数据节点和大量元数据节点来处理极小的文件。您也可以拥有许多数据节点和只有一个元数据节点。这个扩展模型没有限制。该平台现在成为 FlashBlade 的扩展。"
他补充说,高度分离和并行的架构将消除多模态模型的性能影响,并将在单个命名空间中开始提供 10TB/秒的读取性能。此外,组织可以使用一些现成的技术 - 它与其他存储制造商的数据节点兼容,而 FlashBlade 将用于元数据 - 以及 Pure Storage 自己的技术。
"从一开始就会提供这些现成的数据节点,因为当我们开始与客户讨论这个可能性时,他们就提出了这个要求,"Kenney 说。"他们希望立即利用现有投资。"
Pure 计划提供基于其 DirectFlash Module (DFM) 构建的数据节点,起始容量为 75TB 和 150TB,后续将提供 300TB,可在 2U 模型中提供 1.8PB 到 7.2PB 的容量。
Pure 本月开始让客户测试该平台,约有十几个客户正在进行概念验证,计划在今年夏天正式发布。系统最初将支持 pNFS 访问,之后将提供基于 RDMA 的 S3 支持,以及 DFM 数据节点、Nvidia 认证和与 Pure 的 Fusion 存储即代码服务的集成。
好文章,需要你的鼓励
串流技术正打破传统游戏边界,让"即点即玩"的畅快体验触手可及,不仅重塑了玩家的游戏方式,更将引领整个产业迈向云端加速迈进。
高通宣布收购越南 AI 研究公司 VinAI 的生成式 AI 部门,金额未披露。这标志着高通持续扩张 AI 工具领域。VinAI 由前 DeepMind 研究科学家 Hung Bui 创立,开发多种生成式 AI 技术。此次收购将增强高通在 AI 解决方案方面的能力,有望为多个行业和消费者带来创新。
GameForge AI 是一款基于人工智能的游戏开发平台,可帮助用户轻松创建自己的游戏世界。本文介绍了 GameForge AI 的功能和使用方法,包括创建角色、场景和任务等。虽然 AI 生成速度较慢,但平台对游戏设计师、桌游爱好者和学生等用户都很有吸引力。与其他 AI 创作工具相比,GameForge AI 更注重构建复杂的叙事驱动型世界。
Anthropic 推出面向高等教育的 Claude for Education 计划,与 OpenAI 的 ChatGPT Edu 计划形成竞争。该计划为学生、教职员工提供 AI 聊天机器人 Claude 的访问权限,并增加了一些新功能。新功能包括"学习模式",旨在培养学生的批判性思维能力。Anthropic 已与多所大学达成合作,希望通过这一计划扩大在教育领域的影响力。