NetApp表示,AI时代下“技术依赖将成新常态”

NetApp与IDC关于《企业AI的演变格局》研究报告发现,63%的受访者认为必须进行生成改进或者彻底更新,才能确保存储解决方案针对AI进行优化。

分析观点:NetApp认为生成式AI推理将在企业当中广泛应用,并且需要访问大量互联数据——而这正是其智能数据基础设施产品的核心卖点所在。

随着数据孤岛逐渐崩塌,生成式AI大语言模型(LLM)可以访问更多数据内容,AI推理也将蓬勃发展。NetApp与IDC关于《企业AI的演变格局》研究报告发现,63%的受访者认为必须进行生成改进或者彻底更新,才能确保存储解决方案针对AI进行优化。考虑到现代AI高度依赖于训练,即将数据高速发送至昂贵且功能强大的GPU处以产生通用型大模型,再由大模型响应用户提出的推理请求,到底应该如何针对AI优化存储体系?

AI训练可以在公有云端进行,推理当然也可以。但推理还有一项额外需求,就是通过检索增强生成(RAG)访问专有数据,以便只具备通用知识的大模型填补其知识库中的空白、成为拥有专业技能的大模型。而一旦缺少了这部分专有数据,大模型很可能就用户请求给出怪异抽象的回应,也就是人们常说的“AI幻觉”。

NetApp公司AI及相关主题产品管理高级总监Russell Fishman认为,用于推理的互联数据完全处于NetApp擅长的赛道之内。他表示,GPU服务器机架对于电力及资本投入的要求越来越高,这将大大限制AI训练的实际发生位置。

Fishman提到搭载英伟达Blackwell GPU的每台机架需要150千瓦功率,并表示“我不知道有哪家企业的数据中心机架能够承载150千瓦的运行功率,而且差距很大。现实情况是,AI训练只能成为少数高度专业化服务商的储备选项,其余大部分用户都只能租用设施做模型训练。”

他还进一步强调称,“当然会有一部分客户不选择租用设施训练,但我猜这个数字永远超不过两位数”,也就是全球范围内此类客户数量不到十家。

而根据我们对英伟达GPU Direct认证情况的跟踪来看,这种需要配合专门高性能并行文件系统、以超高速度将数据泵送至英伟达GPU机架的体系确实门槛极高,几乎相当于高性能计算与超级计算领域的Lustre与Storage Scale。

AI训练正在成为一个专门领域,而AI推理则不然。Fishman解释称,“目前的实际情况是,AI正在走出开发阶段、正式步入价值实现阶段。”

他观察到“AI大众市场”正在全面推进,但“现在我们遇到了数据问题。数据存储在这边,其中包含训练所需的AI数据资源;但生成模型运行在哪里?答案是无处不在。它们运行在边缘位置、运行在核心设施之上,也可以运行在各种分支机构当中,总之无处不在。而这种数据与训练场景的割裂已经成了新的问题。”

 “那我们该如何管理数据并使变得更简单,从而实现无缝对接?比如说,身为一名数据科学家和数据工程师,如果我需要将数据从这里转移到那里,那肯定得以一种高效、快速的方式进行。更重要的是,要如何保证整个转移过程始终遵循公司提出的数据治理政策要求?”

CIO以及其他企业高管必须以前所未有的方式审视这个问题。正如Fishman所指出,“突然之间,我们现在迈进了「我需要实际运行AI」的阶段。这项前沿技术开始融入面向用户的服务,而用户对于服务的正常运行时间等指标都抱有明确的期望。”

也就是说,人们开始普遍关注可管理性、可观察性,以及数据在整个AI生命周期之内的使用与管理方式。Fishman解释道,“把这些多问题累加起来,人们开始认真观察和思考,「面对这么多各不相同的数据孤岛,到底该如何打理?」”

为了满足特定数据访问与存储需求而构建的众多数据孤岛,俨然成为阻碍通行性数据访问的绊脚石。而组织内大语言模型通过RAG能够获取的内部数据越多,其响应质量就越好。Fishman由此总结称,“重点在于,当我们审视各类企业,会发现数据和存储正越来越多地成为AI领域普遍关注的问题。那么,这场变革到底该从哪里入手?”

这正是NetApp的优势所在,其掌握着开创性的数据结构概念(即「智能数据基础设施」),并允许客户在OEM的支持下转移并访问NetApp ONTAP数据资产中的数据,接入你能想到的几乎任何一种服务器、在公有云端运行并匹配数以万计的客户实现方案。

Fishman坦言,“由此形成的技术依赖将成为新的常态。”

所以只要我们拥有NetApp智能数据基础设施平台,并在其数据资产当中存储了数百EB的客户信息数据,那么存储的数据就能被转换为嵌入向量以供大模型进行搜索。

为此我询问Fishman,NetApp是否有责任、或者有意愿在系统级应用之上提供与AI相关的应用方案。既然客户已经在NetApp基础设施当中存储着如此庞大的信息总量,你们是否愿意参与并为其提供处理服务,并帮助他们对数据资产内容进行向量化?

他的回应是,“我无法讨论任何正在开发的产品或者相关内容,但我可以与大家分享我的愿景。NetApp确实正在努力,包括你提到的一些要素,其在本质上可以通过存储或者数据管理平台更好地完成交付。”

“我能想到的向量数据库必须解决两个问题,这些问题都比较棘手,最好能在存储阶段完成。首先就是向量化,向量嵌入,也就是根据客户希望使用的向量模型生成向量值。”

“这属于计算密集型任务,但更重要的是,这也是一类数据密集型功能,需要大量提取数据。当然,在谈到数据的时候,我们讨论的不仅仅是文件,还有其他实体。比如说幻灯片中的一页或者文档中的一段,也可以是表格中的一列。包括大家能想到的其他形式吧,总之越接近数据越好。”

那么第二个问题呢?

“向量数据库耗费了大量的时间和精力,为的就是从数据中找出差异和变化。其中一些方案用非常基础的方式实现这种效果,比如说查看文件大小、查看上次编辑日期之类的指标。但真正的问题是,在实体层面我们肯定不想重新向量化所有内容,而只是想准确把握已经变更的部分,甚至最好能以队列的形式进行。因此从数据路径的角度考虑,最好是以队列而非分散的形式执行。”

而对于位于堆栈更上方的其他生成式AI相关处理,“我们肯定需要通过一组开放API进行连接。”比如说Kubernetes容器存储接口(CSI)的API,NetApp已经将该API捐赠给开源社区,“并成为Kubernetes一切持久存储的执行标准”。

Fishman指出,“我们也在建立这些项目的过程中,更加明确了自身在愿景中所应扮演的角色。”

数据治理是生成式AI推理中的另一个问题。“数据治理是个有趣的话题,因为我认为行业之外的大多数人会将数据治理视为阻碍数据科学家及数据工程师开展工作的因素。但实际上,如果真的去跟数据科学家和数据工程师们交谈,就会发现治理机制并不会阻碍他们。他们只是害怕自己会犯错,害怕一旦数据使用方式不当,会导致企业雇主面临意外风险。”

“所以这个问题其实包含客观存在的法律和监管问题,此外还有商业问题。”

“人们非常关注如何为数据的使用和管理提供更强大的堆栈和护栏,而我觉得这有点像打地鼠游戏。立足当下,我们能做的就只有制定政策并开发实施政策所必需的各类工具。在我们NetApp看来,把这些东西放进存储层应该会更好。”

“NetApp在这个领域中拥有大量IP。比如说我们的Blue XP数据分类方案,它能真正理解数据中的内容。此外还有能生成其他类型的元数据,例如数据血统、数据访问控制,我们可以使用一大堆元数据来充实数据实体。当然,最重要的就是明确用户要如何访问这些数据。”

“在我看来,我们这个行业一直在以错误的方式解决这些问题,也就是遵循打地鼠式的观念。实际上,进一步提高堆栈并不是正确的方向。我们想要的应该是控制数据所在的位置,而不仅仅控制使用数据的位置。”

“所以我们的愿景也正在于此,这也解释了客户们为何对智能数据基础设施的概念如此兴奋,因为我们坚信这就是在AI新时代提供更高水平存储供应能力的答案所在。”

Fishman认为,“生成式AI是一部以燃料(即数据)为食的引擎。这些数据通常是企业中存在的潜在数据……我们的客户正在寻求像NetApp这样的厂商来帮助他们解锁数据价值,而我们提供的技术支持也将由此迸发出巨大能量。”

“我们就是非结构化数据领域的无上至尊。我们在这一领域已经深耕多年……这也是推动新一轮生成式AI浪潮的根源所在。因此我们看到了巨大的机遇,这不仅可以帮助到我们的客户,更能够帮助到其他希望利用生成式AI技术的组织。我们认为这能让一切变得更简单、更易行、也更值得信赖。我也相信这些都是近在眼前,可以拿出来认真讨论的前景。”

Fishman最后总结称,NetApp智能数据基础设施就是存储体系针对AI进行优化的先驱与标杆。

来源:至顶网存储频道

0赞

好文章,需要你的鼓励

2024

05/06

14:51

分享

点赞

邮件订阅