构建 AI 时数据智能为先

在 AI 发展的浪潮中,数据管理变得至关重要。随着 AI 模型规模和能力的不断扩大,企业纷纷投资建设支撑 AI 的存储和计算基础设施。然而,要充分发挥 AI 的潜力,优化运营并提高投资回报,企业需要在整个 AI 流程中实现高效的数据管理。这不仅涉及容量和性能,还包括数据可见性、安全性以及跨多种数据类型和存储系统的集成管理。

在人工智能领域,似乎"大"就意味着"强"。

随着 AI 模型变得更大、更强大,超大规模企业、云服务提供商和企业都在投入大量资金,建设支持这些模型所需的存储和计算基础设施。

根据 IDC 的数据,2024 年上半年 AI 基础设施投资达到了 318 亿美元。IDC 预计到 2028 年,随着 AI 在企业中的广泛应用,全年支出将超过 1000 亿美元。如果将 AI 应用程序以及相关的 IT 和业务服务计算在内,2028 年全球总支出预计将达到 6320 亿美元。

然而,投资激增是一回事,但要充分发挥 AI 在赋能工程师、改造和优化运营以及提高投资回报率方面的潜力,则是另一回事。对于真正想要实现这些目标的企业来说,贯穿 AI 流程的数据管理可能至关重要。

问题在于,无论是本地部署还是云端的传统存储和数据管理方案,都已经在 AI 的巨大需求下承受压力。容量是其中的一个问题。AI 模型及其训练所需的数据规模在不断扩大。例如,Google Bert 在 2018 年推出时有 1 亿个参数,而 ChatGPT 4 据估计已超过 1 万亿个参数。

在流程的另一端,推理 (通常需要实时速度) 使得延迟和吞吐量同样重要。还有许多其他挑战。AI 需要多种数据类型和存储,包括结构化、半结构化和非结构化数据。这反过来需要全方位的底层存储基础设施 - 块存储、文件存储和对象存储。这些数据存储不太可能都在同一个地方。

除了获取所需信息所涉及的复杂性外,数据源的广度和分布也会造成重大管理问题。组织和其 AI 团队如何确保他们能够在整个数据资产和 AI 流程中保持可见性?如何确保这些数据得到安全处理?多种工具和相关技能的需求进一步增加了复杂性。

传统方案带来的滞后

新型和日益专业化的 AI 模型的引入并没有消除这些基本问题。今年年初,当中国 AI 引擎 DeepSeek 突然进入更广阔的市场时,超大规模企业在 AI 基础设施方面的巨额投资受到了质疑。

即便如此,构建不需要同等计算能力的大语言模型并不能解决根本的数据问题。相反,这可能会使问题变得更具挑战性。使用较少基础设施训练的模型的引入可能会降低企业和其他组织利用 AI 的门槛,使其在自己的基础设施或数据中心运行 AI 变得更加可行。

DataDirect Networks (DDN) 的 CTO Sven Oehme 解释说:"如果计算部分变得更便宜,就意味着更多人参与,训练的模型也会更多。随着参与人数和模型的增加,准备和部署数据以支持这种激增的挑战变得更加关键。"

这不仅仅是传统本地系统面临的挑战。数据科学家依赖了十年或更长时间的基于云的平台往往也无法满足当今 AI 的需求。同样,这不仅仅是原始性能或容量的问题,更是它们智能和安全管理数据的能力问题。

Oehme 举了元数据的例子,如果管理得当,意味着"通过首先缩小实际感兴趣的数据范围,可以减少需要查看的数据量。"

例如,一辆自动驾驶或网联汽车会不断拍摄图片,比如停车标志。在发生事故时,以及随后需要更新或验证底层模型时,分析相关元数据的能力 - 一天中的时间、行驶速度、方向 - 都变得至关重要。

"当他们将这些图片上传到数据中心时...他们希望将所有元数据附加到这个对象上,"他说。这不是一个理论示例。DDN 与多家开发自动驾驶功能的汽车供应商合作。

很快就会发现,AI 的成功不仅取决于组织可以访问的数据量。"存储在系统中的数据的丰富性"以及"将所有这些管道或工作流集成在一起,从数据的创建到消费都有完整的治理"都会发挥作用。

然而,许多组织目前必须同时管理多个数据库、事件系统和通知。这可能会带来高昂的成本、复杂性和时间消耗,并且inevitably会造成延迟问题。即使是云计算巨头 AWS 也不得不开发一个单独的产品 - S3 Metadata - 来解决元数据问题。

数据也需要智能

DDN 表示,需要的是一个平台,它不仅能提供所需的硬件性能,还能以规模化的方式智能地安全管理数据。而且它需要是可访问的,无论是通过云还是本地部署,这意味着它必须提供多租户功能。

这正是 DDN 的数据智能平台的用武之地。该平台由两个元素组成。DDN 的 Infinia 2.0 是一个软件定义的存储平台,为用户提供跨组织分散数据集合的统一视图。EXAScaler 是其高度可扩展的文件系统,针对高性能、大数据和 AI 工作负载进行了优化。

正如 Oehme 所解释的,Infinia 是"一个数据平台,恰好也支持许多存储协议,包括结构化数据的协议。"他说这是一个关键的区别,"因为 Infinia 允许你存储数据,不仅仅是普通的数据文件和对象。它允许我在同一视图中将大量元数据与非结构化数据结合存储。"

他说,数据和元数据存储在 Infinia 的可大规模扩展的键值存储中:"这完全是以两种不同方式存储相同的数据和元数据。因此,我们没有采用人们过去使用的分层方法。"

这可以带来更高效的数据管道和操作,既通过消除在组织中蔓延的多个孤岛,又通过消除数据科学家和其他专家学习和维护多个数据分析和管理工具的需求。

由于 EXAScaler 和 Infinia 2.0 从一开始就被设计为多租户,它们能够从企业应用扩展到云服务提供商再到超大规模企业。

结果很明显:根据 DDN 的比较,多 TB/秒带宽系统,亚毫秒级延迟,比 AWS S3 提供了 100 倍的性能提升。在模型训练和推理的访问时间方面,DDN 平台显示出 25 倍的速度提升。

对于本地解决方案,Infinia 2 支持大规模密度,单个机架可达 100PB,可以减少高达 75% 的电力、冷却和数据中心占用空间,正常运行时间达到 99.999%。这是一个重要的能力,因为电力和物理空间的获取正在成为 AI 开发和部署的制约因素,就像技能和数据的获取一样。

DDN 与芯片制造商 NVIDIA 密切合作。它与该 GPU 巨头的硬件架构紧密对齐,可扩展支持单个部署中超过 100,000 个 GPU,同时还与其软件栈紧密集成,意味着与用于推理的 NIMs 微服务以及 NVIDIA NeMO 框架和 Cuda 的紧密集成。而 NVIDIA 本身就是 DDN 的客户。

AI 技术正在飞速发展,模型开发者们在激烈竞争用户的关注。然而,数据 - 以及管理数据的能力 - 最终将决定组织是否能实现 AI 的承诺,无论我们谈论的是超大规模企业、云服务提供商,还是使用其服务的企业。

Oehme 说,潜力是显而易见的。"如果你有一个非常优秀、非常好奇的工程师,他们会通过 AI 变得更好。"但这取决于数据基础设施首先得到改善。

来源:BLOCKS & FILES

0赞

好文章,需要你的鼓励

2025

02/24

09:27

分享

点赞

邮件订阅