数据编排公司 Hammerspace 正在挑战传统观念,即对象存储是 AI 训练和推理的最佳解决方案,认为通用的、协议无关的数据访问才是更为关键的。
在某种意义上,这对 Hammerspace 来说是自然的,因为它拥有像 Meta 这样的 AI 模型训练客户。其技术基于并行 NFS,并支持 Nvidia 的 GPUDirect 快速文件访问协议。然而,Hammerspace 也支持 S3 数据访问和文件访问。它与对象存储供应商 Cloudian 合作,使其 HyperStore 对象存储库可以被 Hammerspace 的全球数据平台软件使用。HyperStore 支持 Nvidia 的 GPUDirect 对象存储,旨在提供更快的对象访问。
Hammerspace 的市场营销高级副总裁 Molly Presley 与 Blocks and Files 讨论了文件与对象的 AI 话题,并进一步探讨了如何为 AI 处理准备数据——向量化以及如何为 AI 大语言模型/代理时代组织数据。
Blocks & Files:为什么 Hammerspace 专注于混合数据平台,而不仅仅是文件或对象存储?
Molly Presley:在 Glenn Lockwood 的文章中,他指出了并行文件系统的痛点,因为它们具有专有性质并需要专业人员。这是 Hammerspace 如此专注于基于标准的数据平台的一个重要原因,因为它对 Linux 内核有超过 2,400 次贡献。如果客户需要基于标准的访问而不依赖于专有客户端和孤岛,他们的选择不仅限于对象存储。
这不仅仅是关于在文件系统和对象存储接口之间进行选择;讨论还涉及到可扩展性、大规模效率、理解数据源以及无缝编排数据,无论其格式如何。
单纯关注存储接口和文件与对象存储的对比,简化了当今 AI 需求的复杂性。每个工作负载都有不同的性能要求,连接到不同的应用程序,具有不同的存储接口要求,并可能使用来自各种位置的数据源。最佳平台通过编排、可扩展性和智能的工作负载特定优化来提供性能。
Blocks & Files:AI 基础设施采购决策主要围绕训练工作负载进行吗?
Molly Presley:不是。在评估 AI 投资时,组织考虑的不仅仅是训练。大多数组织的数据架构投资需要涵盖远不止训练。它们需要涵盖推理、RAG、实时分析等。每个都需要特定的优化,超越通用的、一刀切的存储系统。需要一个数据平台,并且必须适应 AI 工作负载的每个阶段,而不是将它们强制进入过时的存储范式。
一个数据平台必须提供实时数据摄取(也称为数据同化)、智能元数据管理、安全性和弹性。仅靠存储接口无法解决全部挑战——数据必须是流动的、编排的,并动态放置,以在工作负载之间实现最佳性能。
Blocks & Files:我们一直担心大语言模型的扩散,因为这意味着大语言模型原则上需要访问组织的整个数据资产。组织的整个数据资产是否需要向量化?如果不是全部,哪些部分需要?关键任务、近实时、归档?
Molly Presley:在 Hammerspace,我们不认为向量化是买家和架构师的首要挑战或关注点——而是全球访问和编排。组织数据集、确保数据清洁以及将数据移动到可用计算资源上,在当今的训练、RAG 和迭代工作负载中更为紧迫。
组织的整个数据资产的向量化需求高度依赖于用例和行业。虽然答案各不相同,但通常不需要完全向量化。关键任务和近实时数据是主要候选者,而归档数据可以选择性地采样,以识别出进一步向量化的相关性或模式。
有效实施的关键是使应用程序能够在元数据控制平面级别访问所有存储类型的数据——无需迁移或集中化。这确保了可扩展性和效率。
Blocks & Files:组织的聊天机器人/AI 代理是否需要原则上访问其整个数据资产?它们如何获取?
Molly Presley:聊天机器人和 AI 代理通常不需要访问组织的整个数据资产——只需要与其功能相关的精选子集。安全和合规性问题使得不受限制的访问不切实际。相反,利用全球数据访问与智能编排确保 AI 工具能够访问正确的数据,而不会导致不受控的扩展。
即使一个组织将所有数据向量化,结果数据存储也将是近实时的,而不是真正的实时。性能受更新延迟限制——向量表示仅与其最新刷新一样当前。API 集成和快速索引可以有所帮助,但实时响应性依赖于持续更新。Hammerspace 的相关角度仍然是基于元数据的自动化编排,而不是全面的向量化。
Blocks & Files:在采用大语言模型代理的组织中,数据的主要接口会成为大语言模型吗?
Molly Presley:好问题。大语言模型正在迅速成为采用 AI 代理的组织中数据的重要接口。它们处理自然语言和提供上下文洞察的能力使其成为可访问性和决策的强大工具。然而,它们不会取代传统的 BI 和分析工具——而是与之集成。企业需要结构化报告、治理和可审计性,这些仍然由既定标准最好地服务。近期(至少未来几年)的未来在于混合方法:大语言模型将增强数据交互和发现,而企业级分析工具确保精确性、合规性和运营控制。
Blocks & Files:在向量数据空间中,文件存储和对象存储的概念是否失去意义?
Molly Presley:文件和对象存储不会消失;它们会进化。在向量数据空间中,数据是通过语义关系访问的,而不是文件路径或对象键。然而,存储类型在性能、成本和规模方面仍然重要。
Blocks & Files:我们会看到像 SQL 一样的 VQL(向量查询语言)出现吗?
Molly Presley:是的,向量查询语言将会出现,尽管它可能不会采取与 SQL 完全相同的形式。标准化至关重要。正如 SQL 成为结构化数据的通用语言,向量搜索将需要一个标准化的查询语言,以使其在工具和平台之间更易于访问和互操作。
API 和嵌入还不够。目前,向量数据库依赖于 API 和嵌入模型进行相似性搜索,但随着采用的增长,企业将需要更直观的高级查询功能。混合查询将是关键。未来的 AI 驱动分析将需要混合结构化(SQL)和非结构化(VQL)数据的查询,使用户能够无缝地从两者中获取洞察。
Blocks & Files:存储供应商能否提供涵盖块、文件和对象数据的数据空间抽象?
Molly Presley:一些存储供应商可以跨文件和对象抽象存储类型,有些还提供块存储——但这不是真正的全球数据空间。它们在自己的生态系统内创建全局命名空间,但未能统一跨供应商、云和多样化格式(结构化、非结构化、向量化)的数据。
标准也是这个讨论的重要组成部分。组织通常不愿意在其 GPU 服务器上添加软件或更改其批准的 IT 构建环境。将数据层客户端接口构建到 Linux 中作为最广泛采用的操作系统至关重要,并且使用应用程序本地写入的接口,如 pNFS、NFS 和 S3,通常是强制性的。
全球数据空间是关于通用访问,而不仅仅是存储抽象。它必须集成丰富的元数据、启用高级分析,并动态编排数据——无需迁移、重复或供应商锁定。
底线:存储类型无关紧要。没有真正的全球编排,数据仍然是孤立的、基础设施绑定的和低效的。
Blocks & Files:在采用基于大语言模型代理的世界中,我们如何组织一个组织的数据资产及其存储?
Molly Presley:我们需要一种分层的数据方法,组织不是以传统 HSM(分层存储管理)的时间为基础,而是具有丰富的上下文相关性,以便在需要时自动编排精选的数据子集,从任何地方无缝地移动到任何地方。
关注数据,而不是存储。特别是在基于大语言模型的生态系统中,存储类型是机会主义和工作流驱动的。所有存储类型都有其用途,从闪存到磁带再到云。当存储类型通过智能、无干扰的编排抽象时,存储决策可以根据成本、性能、位置、首选硬件供应商等战术性地做出。
通过标准协议和 API 实现统一访问,可以跨所有存储类型和位置桥接。这提供了直接的数据访问,无论数据今天在哪里,或明天移动到哪里。通过这种方式,数据在原地被策划,以便应用程序可以访问数据资产的相关子集,而无需破坏性和昂贵的迁移。
文件和对象中有丰富的元数据,通常在传统存储环境中未被使用。自定义元数据、语义标记和其他丰富的元数据可以用于在数据集的策划中驱动更高的粒度。将这些元数据结合到全球文件系统中,以触发自动化数据编排,最小化不必要的数据移动,降低未充分利用的存储成本,并提高基于大语言模型的用例的准确性和上下文洞察。
数据流动性和线性扩展能力至关重要。大语言模型工作流不可避免地导致数据增长,但更重要的是,当本地 GPU 不可用时,可能需要基于云的计算资源。现代组织必须在没有传统孤立和供应商锁定存储基础设施的复杂性和限制的情况下推动其数据流动。
好文章,需要你的鼓励
Confluent 发布强劲财报和乐观指引,并宣布与 Databricks 达成重要合作。公司第四季度业绩超预期,云业务增长38%,成为主要收入来源。Confluent 看好实时数据流在 AI 应用中的重要性,新合作旨在打通数据生成和分析系统之间的鸿沟。这些利好消息推动公司股价在盘后交易中大涨14%以上。
英国政府宣布投资 8500 万英镑支持三个人工智能研究项目,旨在改革研究资助模式,推动医疗保健创新。其中两个项目聚焦于利用 AI 改善诊断和治疗,另一个项目致力于革新水资源管理。这笔资金将支持研究人员和企业推动创新,释放 AI 在医疗等领域的巨大潜力。
超微公司预测2026财年收入将达400亿美元,远超华尔街预期。CEO梁見豐表示,这得益于其液冷技术在数据中心的广泛应用。尽管面临会计调查和潜在退市风险,超微仍对AI硬件需求持乐观态度。公司股价波动剧烈,反映了投资者对其前景的矛盾心理。