Hammerspace 挑战 AI 领域对象存储的传统观念

Hammerspace 公司认为,通用的、协议无关的数据访问对 AI 训练和推理更为重要,而非传统认为的对象存储。该公司支持多种存储协议,强调数据编排和全局访问的重要性,以满足 AI 工作负载的多样化需求。这一观点挑战了对象存储在 AI 领域的主流地位。

数据编排公司 Hammerspace 正在挑战传统观念，即对象存储是 AI 训练和推理的最佳解决方案，认为通用的、协议无关的数据访问才是更为关键的。

在某种意义上，这对 Hammerspace 来说是自然的，因为它拥有像 Meta 这样的 AI 模型训练客户。其技术基于并行 NFS，并支持 Nvidia 的 GPUDirect 快速文件访问协议。然而，Hammerspace 也支持 S3 数据访问和文件访问。它与对象存储供应商 Cloudian 合作，使其 HyperStore 对象存储库可以被 Hammerspace 的全球数据平台软件使用。HyperStore 支持 Nvidia 的 GPUDirect 对象存储，旨在提供更快的对象访问。

Hammerspace 的市场营销高级副总裁 Molly Presley 与 Blocks and Files 讨论了文件与对象的 AI 话题，并进一步探讨了如何为 AI 处理准备数据——向量化以及如何为 AI 大语言模型/代理时代组织数据。

Blocks & Files：为什么 Hammerspace 专注于混合数据平台，而不仅仅是文件或对象存储？

Molly Presley：在 Glenn Lockwood 的文章中，他指出了并行文件系统的痛点，因为它们具有专有性质并需要专业人员。这是 Hammerspace 如此专注于基于标准的数据平台的一个重要原因，因为它对 Linux 内核有超过 2,400 次贡献。如果客户需要基于标准的访问而不依赖于专有客户端和孤岛，他们的选择不仅限于对象存储。

这不仅仅是关于在文件系统和对象存储接口之间进行选择；讨论还涉及到可扩展性、大规模效率、理解数据源以及无缝编排数据，无论其格式如何。

单纯关注存储接口和文件与对象存储的对比，简化了当今 AI 需求的复杂性。每个工作负载都有不同的性能要求，连接到不同的应用程序，具有不同的存储接口要求，并可能使用来自各种位置的数据源。最佳平台通过编排、可扩展性和智能的工作负载特定优化来提供性能。

Blocks & Files：AI 基础设施采购决策主要围绕训练工作负载进行吗？

Molly Presley：不是。在评估 AI 投资时，组织考虑的不仅仅是训练。大多数组织的数据架构投资需要涵盖远不止训练。它们需要涵盖推理、RAG、实时分析等。每个都需要特定的优化，超越通用的、一刀切的存储系统。需要一个数据平台，并且必须适应 AI 工作负载的每个阶段，而不是将它们强制进入过时的存储范式。

一个数据平台必须提供实时数据摄取（也称为数据同化）、智能元数据管理、安全性和弹性。仅靠存储接口无法解决全部挑战——数据必须是流动的、编排的，并动态放置，以在工作负载之间实现最佳性能。

Blocks & Files：我们一直担心大语言模型的扩散，因为这意味着大语言模型原则上需要访问组织的整个数据资产。组织的整个数据资产是否需要向量化？如果不是全部，哪些部分需要？关键任务、近实时、归档？

Molly Presley：在 Hammerspace，我们不认为向量化是买家和架构师的首要挑战或关注点——而是全球访问和编排。组织数据集、确保数据清洁以及将数据移动到可用计算资源上，在当今的训练、RAG 和迭代工作负载中更为紧迫。

组织的整个数据资产的向量化需求高度依赖于用例和行业。虽然答案各不相同，但通常不需要完全向量化。关键任务和近实时数据是主要候选者，而归档数据可以选择性地采样，以识别出进一步向量化的相关性或模式。

有效实施的关键是使应用程序能够在元数据控制平面级别访问所有存储类型的数据——无需迁移或集中化。这确保了可扩展性和效率。

Blocks & Files：组织的聊天机器人/AI 代理是否需要原则上访问其整个数据资产？它们如何获取？

Molly Presley：聊天机器人和 AI 代理通常不需要访问组织的整个数据资产——只需要与其功能相关的精选子集。安全和合规性问题使得不受限制的访问不切实际。相反，利用全球数据访问与智能编排确保 AI 工具能够访问正确的数据，而不会导致不受控的扩展。

即使一个组织将所有数据向量化，结果数据存储也将是近实时的，而不是真正的实时。性能受更新延迟限制——向量表示仅与其最新刷新一样当前。API 集成和快速索引可以有所帮助，但实时响应性依赖于持续更新。Hammerspace 的相关角度仍然是基于元数据的自动化编排，而不是全面的向量化。

Blocks & Files：在采用大语言模型代理的组织中，数据的主要接口会成为大语言模型吗？

Molly Presley：好问题。大语言模型正在迅速成为采用 AI 代理的组织中数据的重要接口。它们处理自然语言和提供上下文洞察的能力使其成为可访问性和决策的强大工具。然而，它们不会取代传统的 BI 和分析工具——而是与之集成。企业需要结构化报告、治理和可审计性，这些仍然由既定标准最好地服务。近期（至少未来几年）的未来在于混合方法：大语言模型将增强数据交互和发现，而企业级分析工具确保精确性、合规性和运营控制。

Blocks & Files：在向量数据空间中，文件存储和对象存储的概念是否失去意义？

Molly Presley：文件和对象存储不会消失；它们会进化。在向量数据空间中，数据是通过语义关系访问的，而不是文件路径或对象键。然而，存储类型在性能、成本和规模方面仍然重要。

Blocks & Files：我们会看到像 SQL 一样的 VQL（向量查询语言）出现吗？

Molly Presley：是的，向量查询语言将会出现，尽管它可能不会采取与 SQL 完全相同的形式。标准化至关重要。正如 SQL 成为结构化数据的通用语言，向量搜索将需要一个标准化的查询语言，以使其在工具和平台之间更易于访问和互操作。

API 和嵌入还不够。目前，向量数据库依赖于 API 和嵌入模型进行相似性搜索，但随着采用的增长，企业将需要更直观的高级查询功能。混合查询将是关键。未来的 AI 驱动分析将需要混合结构化（SQL）和非结构化（VQL）数据的查询，使用户能够无缝地从两者中获取洞察。

Blocks & Files：存储供应商能否提供涵盖块、文件和对象数据的数据空间抽象？

Molly Presley：一些存储供应商可以跨文件和对象抽象存储类型，有些还提供块存储——但这不是真正的全球数据空间。它们在自己的生态系统内创建全局命名空间，但未能统一跨供应商、云和多样化格式（结构化、非结构化、向量化）的数据。

标准也是这个讨论的重要组成部分。组织通常不愿意在其 GPU 服务器上添加软件或更改其批准的 IT 构建环境。将数据层客户端接口构建到 Linux 中作为最广泛采用的操作系统至关重要，并且使用应用程序本地写入的接口，如 pNFS、NFS 和 S3，通常是强制性的。

全球数据空间是关于通用访问，而不仅仅是存储抽象。它必须集成丰富的元数据、启用高级分析，并动态编排数据——无需迁移、重复或供应商锁定。

底线：存储类型无关紧要。没有真正的全球编排，数据仍然是孤立的、基础设施绑定的和低效的。

Blocks & Files：在采用基于大语言模型代理的世界中，我们如何组织一个组织的数据资产及其存储？

Molly Presley：我们需要一种分层的数据方法，组织不是以传统 HSM（分层存储管理）的时间为基础，而是具有丰富的上下文相关性，以便在需要时自动编排精选的数据子集，从任何地方无缝地移动到任何地方。

关注数据，而不是存储。特别是在基于大语言模型的生态系统中，存储类型是机会主义和工作流驱动的。所有存储类型都有其用途，从闪存到磁带再到云。当存储类型通过智能、无干扰的编排抽象时，存储决策可以根据成本、性能、位置、首选硬件供应商等战术性地做出。

通过标准协议和 API 实现统一访问，可以跨所有存储类型和位置桥接。这提供了直接的数据访问，无论数据今天在哪里，或明天移动到哪里。通过这种方式，数据在原地被策划，以便应用程序可以访问数据资产的相关子集，而无需破坏性和昂贵的迁移。

文件和对象中有丰富的元数据，通常在传统存储环境中未被使用。自定义元数据、语义标记和其他丰富的元数据可以用于在数据集的策划中驱动更高的粒度。将这些元数据结合到全球文件系统中，以触发自动化数据编排，最小化不必要的数据移动，降低未充分利用的存储成本，并提高基于大语言模型的用例的准确性和上下文洞察。

数据流动性和线性扩展能力至关重要。大语言模型工作流不可避免地导致数据增长，但更重要的是，当本地 GPU 不可用时，可能需要基于云的计算资源。现代组织必须在没有传统孤立和供应商锁定存储基础设施的复杂性和限制的情况下推动其数据流动。

来源：BLOCKS & FILES

0赞

好文章，需要你的鼓励

Hammerspace 挑战 AI 领域对象存储的传统观念

来源：BLOCKS & FILES

2025

02/12

14:00

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: