AI大模型如何重塑存储产业? 原创

那么面向AIGC时代产生的新的应用和海量数据,对于数据存储行业带来怎样的挑战和机遇?整个存储系统应该如何进化?我们通过与存储领域的专家沟通来呈现一个目前存储产业的应对之策。

2023年,全球数字产业领域的从业者的目光都聚焦在一个核心议题——大语言模型(LLM)机器学习和生成式AI。并催生了运行大语言模型训练和推理的CPU/GPU服务器的需海量求,同时造成了算力短缺让大家津津乐道。知名科技博客GPU Utils最近对GPU短缺问题进行了一项深入调查,保守估计H100的供给缺口达到43万张。

但是我们说推动AI发展的三要素除了算力,还包括算法和数据。而数据的载体就是存储。只要今天整个计算系统依然遵循冯诺依曼体系结构,那么作为长期记忆数据和程序的存储设备就不可或缺。过去,整个存储系统也随着应用的发展在不断进化,从早期的数据库应用催生的集中式存储,到web2.0应用催生的分布式存储架构,再到电商、视频、移动应用催生的软件定义存储、融合存储架构等进化。

那么面向大模型时代产生的新的应用和海量数据,对于数据存储行业带来怎样的挑战和机遇?整个存储系统应该如何进化?我们通过与存储领域的专家沟通来呈现一个目前存储产业的应对之策。

大模型对于数据存储带来的挑战

AI大模型在企业当中的实施过程是一个复杂的系统工程。要分析大模型对数据存储带来的挑战,我们先了解一下AI大模型实施过程中的数据有怎样的特点。

首先从数据源看,大模型呈现多模态趋势,不仅要分析文本数据还要分析视频、图片等数据,因此其离不开来自结构化(块存储)和非结构化(文件+对象存储)数据源的数据。

其次,AI生成的数据越来越多,模型也越来越大。Gartner预测到2025年, AI的内容生成会占到整个数据量10%。以ChatGPT 4.0来举例,它在训练时候使用到了45TB的数据,有近一万亿个数据量,数十亿行的源代码。

第三,数据处理过程复杂冗长,大模型需要把分散到各个地方的数据进行归集、预处理,然后把喂给AI大模型。生成式AI模型虽然由GPU负责训练,但是大量的投喂素材的任务,将越来越多由数据驱动的大规模非结构化和对象存储负责。以数据预处理为例,百TB级的数据可能需要大概10天左右的准备时间。

了解了数据特点,我们就可以来分析一下给数据存储带来的挑战。

首先给存储系统带来的挑战是容量和性能挑战。“本质上讲数据的数量和质量决定了人工智能整体的落地水平。结合人工智能应用从数据角度来说,它的训练需要海量数据尤其是PB级的数据,需要更大的存储容量,同时在训练过程中这些数据写得少,读得多,还需要更高的吞吐量,以及对延迟、性能都有更高的要求。” 西部数据中国区技术支持高级总监宋磊这样讲到。

特别是当AIGC进入多模态领域之后,对存储的性能带来新的挑战。“以训练生成式AI为主的大模型如果进入到多模态领域,比如视频、图片,下一轮会对存储带来新的挑战。” 新华三存储产品线总经理关天舒对至顶网表示。他认为AI大模型应用跟我们之前存储的应用完全不是一个概念,对性能要求其实更高。“大模型应用除了CPU计算,更多是GPU的计算,需要存储要能够去适配GPU存储的加速,因此存储训练时间决定了大模型的生产时间,对于存储性能需求也比较大。”

其次是存储系统的稳定性提出更高要求。这是因为AIGC不仅数据量大,而且对于数据质量要求也更高。华为数据存储产品线总裁周跃峰博士认为,数据质量决定机器AI智能的高度:缺数据,无AI。数据质量越高,越有价值的数据给人工智能提供更可靠的输入,AI服务能力越智能。要实现高质量的数据训练对存储稳定性提出更高的要求。谈到存储稳定性的挑战,周跃峰表示,“主流训练模型已经有千亿级参数,甚至将发展至万亿级。AI大模型训练不稳定,频繁的参数调优、服务器故障或者网络的故障经常造成中断,我们需要Checkpoint机制确保训练能够快速返回。”

“我们知道大模型训练耗时非常久,它对可靠性提出非常高的要求。在大模型训练里面有一个很关键且不一样的点就是CheckPoint,对整个大模型训练非常重要,需要存储能够提供一个非常稳定的状态,能让之前的训练恢复到CheckPoint之前的状态,需要存储更加稳定才能让模型训练更加可靠。” 关天舒也分享到。

第三,大模型训练过程中面临的众多挑战,从存储的场景或者说数据中心存储场景来讲,大模型数据是经过了采集、存储、处理、传输、加工再存储这样的循环路径。具体到通用大模型与行业大模型的训练推理过程中面临众多数据难题:比如数据准备阶段的问题,包括数据归集慢以及数据预处理周期长。

在AIGC之前,存储底层设计往往跟用户应用层面相关,存储要么专注小IO,要么就专注于大IO,今天客户需求明确的发生了变化。大家知道相较于传统深度学习模型,大模型带来训练参数、训练数据集呈指数级增加,百亿、千亿甚至万亿的参数级。在这个过程中,需要整个系统对于小文件的读写能力非常强,但恰恰是传统的系统,小文件的读写限制了这一些训练数据集的读取,让整个存储系统的效率很低。

”数据归集需要从跨地域的多个数据源拷贝原始数据,这些原始数据不能直接用于AI模型训练,需要将多样化、多格式的数据进行清洗、去重、过滤、加工,大量的数据预处理工作需要耗用大量的GPU,我们知道100个GPU每小时的训练成本是几十万,如何实现海量的小文件数据集快速加载,降低GPU等待时间都是需要认真考虑的问题。”周跃峰谈到。

第四,数据安全的挑战。数据是企业的核心资产,客户上传自己公司的数据,训练专属的GPT,实现数据的隔离,确保业务的安全性。因此在跨地域归集的过程中必须保证数据安全地流转,做到数据不泄露。存储内生安全体系架构需要从存储设备安全、数据安全防护能力,结合安全管理流程,为AI大模型构筑数据安全最后一道防线。

存储产业的应对之道

一方面AI模型所需要的非结构化数据要明显多于结构化数据,另一方面AI模型需要大量实时、近实时和归档数据,其中实时和近实时数据主要由闪存介质提供。因此当前存储厂商都是通过不断创新的闪存介质结合超大规模的软件定义存储模式来应对AIGC大模型。

存储介质方面的提升

AIGC对于NAND SSD 需求必然越来越多,主要集中在NVMe、PCIe 4.0和5.0连接以及性能与容量的组合。我们看到包括海力士、三星等QLC和高层数TLC NAND等晶圆厂商和SSD供应商都是利好消息。

相比HDD,全闪存介质支持高IOPS、低时延,更适用于AI大模型训练阶段的随机读写场景。AIGC对存储介质也提出新的要求,要求更高的密度、高可靠和高性能。“AIGC对于数据存储的增量是几何级,同时对IO要求更高,应用不太可能都放在服务器上跑,需要从远端存储系统上调用数据,因此NAND SSD可以是构筑AI存储的更好选择。” Solidigm亚太区销售总监倪锦峰谈到。

同时他认为当前SSD硬件创新速度远远大于软件创新,比如针对大模型,需要伙伴互联网公司和OEM伙伴一起针对市场需求和反馈共同优化模型并进行性能调优。“包括目前美国全闪存市场相对成熟,是因为他们的存储软件能力强,他们对存储的要求不是混合读写的性能,而是随机读写能力和延时,这需要很强的软件能力,即顺序化要做得非常好。” 倪锦峰分享到。

存储系统方面的重构

关天舒表示,我们认为大模型对于存储的发展有一个新的要求:需要存储提供更快的速度、更强的可靠性、更简单的管理能力以及可持续发展的能力。新华三也第一时间提出在AI时代需要对存储进行重构,发布H3C/HPE Alletra MP全局解耦NVMe智能全闪存储、H3C UniStor X10000 G6系列分布式智能融合存储,来构筑更加智慧的数据底座,助力AI时代加速发展。

而华为也提供了面向大模型的AI存储解决方案,通过高带宽、大容量的存储设备,支持万亿参数大模型训练。还通过近存计算技术系统性地实现数据在存储端的预处理,从而让AIGC训练过程更高效。

“华为通过以存补算,突破算力局限,通过近存计算实现近数据预处理,让数据在存储完成部分过滤、归一、转码与增强的数据准备任务,减少数据搬移,从而提升GPU利用率。同时,把企业最新垂直化的数据进行向量化存储和检索,大幅度降低企业接入和使用AI大模型的难度。”周跃峰谈到。在安全方面,华为正在研究一种称为“数据方舱”的技术。实现数据在流转的过程中,数据及其访问权限、凭证信息都被封装在一起进行流转,而数据到达归集地后,将在“数据方舱”安全执行环境中被安全地使用,从而保证数据的安全访问。

作为存储系统的另一个分支超融合领域,我们也看到厂商也在积极拥抱大模型,因为超融合本身架构就是开箱即用、灵活配置。当前超融合厂商主要还是在于大模型应用的集成,来降低企业实施大模型的门槛。比如Nutanix就推出了一款即插即用的交钥匙GPT“魔盒”,供客户在其超融合软件平台上运行大型语言模型人工智能工作负载。

在8月底,沃趣科技基于超聚变超融合产品也发布针对数据库的专有云产品T7,沃趣科技CTO魏兴华也告诉至顶网目前在数据库一体机领域,大模型目前主要应用在运维和管理上。“比如说把所有用户面临的故障进行收集,通过大模型来快速分析、识别相关硬件或者软件版本,来判断哪些场景容易发生故障,第一时间给出建议。同时大模型来辅助开发人员编写代码提升效率等。”

通过专家们的分享我们看到。当前大模型对于存储的影响,首先是介质的影响,更接近计算的内存和NAND SSD的市场将进一步扩大。但是瓶颈也在软件层面的优化。其次是存储系统的挑战,面向AIGC,大语言模型训练的运行需要配合高速数据集读取和CheckPoint写入,同时AI/机器学习集群将需要PB级别的容量,这种并行访问必然需要存储系统更新其新的协议、新的介质、新的架构来构建一个统一的“数据湖”,也就是软件定义存储机会也将是新的机会。我们看到,包括新华三、华为、Pure Storage等供应商正在积极准备使用NVMe协议和支持GPU服务器的文件访问的AI存储,来应对高容量、高可靠和高速IO的新的存储市场机遇。

来源:至顶网存储频道

0赞

好文章,需要你的鼓励

2023

09/06

11:05

分享

点赞

邮件订阅