Quobyte推出GPU融合存储技术优化AI集群数据处理

Quobyte发布GPU融合存储解决方案,通过整合GPU服务器现有驱动器创建共享存储池,将数据更靠近GPU处理单元。该技术利用GPU服务器中闲置的CPU、内存和NVMe存储资源,消除外部存储阵列需求,降低延迟并提升数据传输速度。系统具备容错能力,可应对GPU节点频繁重启和故障。相比传统架构,该方案可显著降低基础设施成本和功耗,每增加一个GPU节点即可自动扩展存储容量和吞吐量。

Quobyte公司推出了GPU融合存储技术,旨在将其并行文件系统和对象存储软件中的数据更靠近GPU,并随着GPU服务器的增加而扩展。

这一理念是通过使用GPU服务器现有的驱动器并将其集群化、融合到共享池中,来简化和加速GPU服务器的数据存储。

Quobyte营销主管Saurabh Kumar表示:"GPU服务器包含的远不止GPU。每个节点都配备强大的CPU、大容量RAM和快速本地NVMe存储。然而,在大多数环境中,这些资源都未得到充分利用。在大规模部署中,这种闲置容量成为现代AI集群中最大的隐性低效问题之一。GPU融合存储提供了一种将这种未充分利用转化为价值的方法。"

在超融合基础设施(HCI)设备系统出现之前,存储是通过网络链路由外部存储阵列提供给一组应用服务器的。例如,存储区域网络(SAN)为应用服务器提供块存储。HCI改变了这种模式,通过拥有虚拟化应用服务器集群。例如,VMware系统使用其本地存储驱动器,创建虚拟SAN(vSAN)。这消除了外部阵列及其网络链路,随着新应用服务器的添加而轻松扩展,并降低了成本。

Quobyte将同样的理念应用于GPU服务器。这些服务器通常有两种处理器。GPU通常配备专用高带宽内存(HBM),用于运行需要高度并行处理例程的工作负载,还有CPU及其DRAM作为主机处理器,将GPU服务器连接到其运行的系统网络中。存在两个独立的内存:GPU的HBM和CPU的DRAM。

GPU服务器还有本地存储驱动器,通常是NVMe SSD,由CPU(通常是x86处理器)管理。Quobyte的GPU融合存储将这些本地驱动器转换为跨GPU服务器集群扩展的存储池。该池中的数据被输入到CPU的DRAM中,然后根据需要以高速度和低延迟传输到GPU的HBM中,延迟远低于从外部阵列传输数据的情况。Quobyte的预取算法在这里发挥了优势。

Kumar说:"通过在GPU节点本身上运行存储并使用其多余的CPU和闪存,组织可以降低成本、功耗、设备数量、交换机端口和整体基础设施复杂性。"

他举了一个功耗成本节约的例子:"在大约10,000个GPU节点的集群中,CPU平均利用率约为30%,未使用的70%仍然消耗大部分功率预算。即使保守估计每个节点200瓦的空闲CPU功率,乘以数千个全天候运行的节点,每年的电费可能超过2.5亿美元。这些CPU被供电、冷却和付费,但很少被充分利用。GPU融合存储将这种浪费转化为生产性基础设施。"

Quobyte指出,GPU服务器并非万无一失,经常会停机。Kumar写道:"GPU节点的行为不像典型的存储服务器或设备。它们经常重启进行更新,运行前沿内核和软件版本,并且在出现故障时经常被移除或更换。"

该公司的容错文件系统软件为此类中断提供保护。它假设硬件会故障,并确保在节点中断发生时维护数据完整性和可用性。GPU融合存储通过节点重启和故障保持可用。

Quobyte表示,GPU融合存储降低了整体成本,因为它"使用GPU节点内的备用CPU、RAM和NVMe来降低基础设施支出和功耗,而无需添加新硬件。"每个添加的GPU节点都会自动贡献存储容量和吞吐量。没有单独的存储层需要独立调整大小、部署或扩展。Kumar说这"符合现代AI的经济学:规模正在加速,但功率和空间却没有。"

有兴趣的各方可以在此处申请访问Quobyte的GPU融合存储。

Q&A

Q1:GPU融合存储是什么技术?

A:GPU融合存储是Quobyte公司推出的一项技术,它将GPU服务器现有的本地驱动器集群化并融合到共享存储池中,使数据能够更靠近GPU处理,提高数据传输速度并降低延迟。

Q2:GPU融合存储能带来什么好处?

A:GPU融合存储可以充分利用GPU服务器中闲置的CPU、RAM和NVMe存储资源,降低基础设施成本、功耗和复杂性。据估算,在10,000个GPU节点的集群中,仅电费一项每年就能节省超过2.5亿美元。

Q3:GPU融合存储如何处理服务器故障问题?

A:Quobyte的容错文件系统软件专门为GPU服务器的特殊情况设计,能够应对GPU节点频繁重启、更新和故障的情况,确保在节点中断时仍能维护数据完整性和可用性。

来源:BLOCKS & FILES

0赞

好文章,需要你的鼓励

2025

12/17

07:59

分享

点赞

邮件订阅