VDURA：AI 训练和推理需要优化文件与对象存储的平衡

本文讨论了 AI 训练和推理中文件存储与对象存储的应用。VDURA CEO Ken Claffey 认为两者都有其作用，不应简单地选择其一。VDURA 提供了一种混合解决方案，结合了对象存储的可扩展性和文件系统的高性能，以满足 AI 工作负载的多样需求。文章强调了在 AI 基础设施中平衡不同存储技术的重要性。

在存储领域，有观点认为对象存储比文件存储更适合 AI 训练和推理，这引起了广泛关注。VAST Data 的联合创始人 Jeff Denworth 和 Microsoft 的 AI 基础架构架构师 Glenn Lockwood 都支持这一观点。然而，Hammerspace 的市场高级副总裁 Molly Presley 和 VDURA 的 CEO Ken Claffey 持不同意见。

VDURA 为超级计算、机构和企业级 HPC 提供并行文件系统。Ken Claffey 认为，在 AI 训练和推理市场中，文件或对象的数据访问问题被误解了。他认为两者都有其作用，并在采访中与我们讨论了这一点。

Blocks & Files：是什么让您开始思考这个问题的？

Ken Claffey：VAST Data 的 Jeff Denworth 最近大胆声称“没有人需要文件系统来进行 AI 训练”，而基于 S3 的对象存储是未来。虽然 AI 工作负载确实在演变，但声称文件系统已经过时是误导性的。

Blocks & Files：您认为 AI 存储需求的现实是什么？并行文件系统在大规模高性能 AI 训练中扮演什么角色？

Ken Claffey：在 VDURA，我们不认为 AI 存储是文件和对象之间的二选一。我们的架构以高性能对象存储为核心，前端是一个完全并行的文件系统。这意味着用户可以获得两者的最佳优势：对象存储的可扩展性和持久性，以及 AI 训练所需的高性能访问。

在我们最新的 v11 版本中，我们通过集成高性能分布式键值存储进一步增强了平台。这一新增功能优化了元数据操作，并实现了超快速索引，进一步增强了 AI 和 HPC 工作负载。此外，VDURA 提供了一个高性能的 S3 接口，允许在文件和对象协议之间无缝访问相同的文件和数据。这确保了企业在扩展 AI 基础架构时的最大灵活性和投资保护。

Blocks & Files：对象存储在这里有什么作用？

Ken Claffey：Microsoft Azure 的 Glenn Lockwood 最近指出，大规模 AI 语言模型越来越多地使用对象存储进行训练，而不是文件存储。他的观点与向基于对象的架构的转变趋势一致，但在得出结论之前，重要的是要仔细研究 AI 训练工作流程的细微差别。

Lockwood 列出了 AI 模型训练的四个主要阶段：

数据摄取：收集大量非结构化数据，适合对象存储，因为它具有不变性和可扩展性。

数据准备：转换和清理数据，这主要是一个内存和分析驱动的任务。

模型训练：通过 GPU 运行 Token 化数据并检查模型权重，需要快速存储访问。

模型部署和推理：分发训练好的模型并处理实时查询，通常通过键值存储进行优化。

虽然 Lockwood 认为这些工作负载不需要并行文件系统，但他的论点主要围绕成本效益而非原始性能。对象存储因其规模和成本效益而适合数据摄取和准备。然而，对于模型训练和实时推理，像 VDURA 这样的混合方法能提供最佳的解决方案。

Blocks & Files：您认为 Nvidia 在这方面的观点是什么？

Ken Claffey：随着他们发布下一代 GPU 和 DGX 平台，他们继续强调高性能存储需求。根据 Nvidia 自己对 DGX 的指导意见，领先的 AI 平台推荐的存储配置是：

“高性能、可靠的、POSIX 风格的文件系统，优化用于多线程读写操作，跨多个节点。”

我们是否遗漏了 S3 的要求？Nvidia 并未表示 AI 训练应仅依赖对象存储。事实上，他们自己的高性能 AI 架构是围绕为多线程、高吞吐量访问而设计的文件系统构建的。

Blocks & Files：检查点是否鼓励使用对象存储？

Ken Claffey：Denworth 提到 Nvidia 的“S3 Checkpointer”作为 AI 训练转向对象存储的证据。然而，他方便地忽略了一个关键细节。Nvidia 自己文档的下一部分指出：“异步功能目前不检查先前的异步保存是否完成，因此即使当前保存失败，也可能会删除旧的检查点。”

这在实践中意味着什么？使用异步检查点可能导致恢复点更早。这大大降低了检查点的可靠性，并增加了训练进度丢失的风险。同步、一致的检查点的价值不容小觑——这是并行文件系统经过数十年优化的内容。

Blocks & Files：您如何优化 VDURA 存储？

Ken Claffey：与其将争论框架为“文件与对象”，VDURA 构建了一个集成解决方案：

一个高性能对象存储，以高效处理大规模数据摄取和归档。

一个完全并行的文件系统前端，以低延迟、高带宽访问优化 AI 模型训练。

一个分布式键值存储，加速元数据查找、向量索引和推理。

一个高性能 S3 接口，确保跨 AI 工作流的多协议访问。

这种架构解决了 Lockwood 的担忧，同时也满足了企业对最高性能和可扩展性的需求。虽然对象存储发挥了关键作用，但完全忽视并行文件系统无视了大规模 AI 训练的实际情况。

Blocks & Files：您如何看待 AI 存储的未来？

Ken Claffey：Denworth 和 Lockwood 都为对象存储提出了强有力的理由，但他们淡化了 AI 训练中性能关键的方面。AI 存储的未来是混合的：

并行文件系统提供训练所需的速度和效率。

对象存储适用于归档、共享和检索工作负载。

多协议解决方案弥合了差距，但这并不意味着文件系统已过时——远非如此。

高性能分布式键值存储增强了元数据管理和索引，进一步优化了 AI 工作流。

VDURA 的方法承认了这一现实：以高性能对象存储为核心，一个完全并行的文件系统前端，一个集成的键值存储，以及一个高性能 S3 接口——所有这些共同作用，以提供无与伦比的 AI 和 HPC 工作负载效率。与 VAST 声称对象存储是未来的观点不同，我们认识到大规模 AI 训练需要所有存储范式的最佳组合。

在大规模部署 AI 的企业需要一个真正满足性能要求的存储基础架构，而不仅仅是理论上的灵活性。虽然对象存储发挥了作用，但并行文件系统仍然是高性能 AI 基础架构的支柱，提供了当今 AI 工作负载所需的速度、一致性和规模。

行业并没有远离文件系统——它正在演变以拥抱最佳的技术组合。问题不是“文件或对象”，而是“我们如何优化？”在 VDURA，我们正在以这种平衡为基础构建 AI 存储的未来。

来源：blocksandfiles

0赞

好文章，需要你的鼓励

VDURA：AI 训练和推理需要优化文件与对象存储的平衡

来源：blocksandfiles

2025

02/13

11:01

分享

点赞

Qorvo推出宽带高效功率放大器QPA9510，助力简化Sub-1GHz射频设计

关于现代化，我们真正需要讨论的是什么？

微软质量控制问题愈演愈烈

开源 AI 及其在当今世界中的重要作用

OpenAI Sora与谷歌Veo 3 AI视频生成对比测试结果出炉

iPhone卫星连接技术五大升级方向曝光

AI助力阿尔茨海默病治疗突破

测试智算性能！新一期国际排行榜AIPerf发布

ChinaSC 2025：产学研聚力，解锁智能算力经济新未来！

联想再登中国HPC TOP100第一，多元算力加速超智融合新进程 斩获多奖！联想多元算力布局引领产业新征程

Gartner：趋势不是终点，而是通往下一个时代的坐标

异构CPU时代来临：多架构协同成为计算新趋势

PEAK:AIO AI 数据服务器性能峰值达到 120 GBps

美光推出新型内存芯片以跟进 AI 处理需求

叠瓦式磁记录技术：开启可扩展和可持续的存储新时代

AI 如何塑造数据存储的未来

MAC 新应用 Hyperspace：无需删除文件就能释放硬盘空间

AI 如何塑造数据存储的未来

StorONE 推出基于 AI 驱动的 TierONE 自动分层存储技术升级

Kioxia 和 SanDisk 展示 332 层 3D NAND 未来技术

NAND闪存价格因供应过剩而暴跌，工厂产量削减

Azure Files 磁盘存储引入类似 SSD 的预配置计费模式

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

联想再登中国HPC TOP100第一，多元算力加速超智融合新进程斩获多奖！联想多元算力布局引领产业新征程