Quobyte推出GPU融合存储技术优化AI集群数据处理

Quobyte发布GPU融合存储解决方案，通过整合GPU服务器现有驱动器创建共享存储池，将数据更靠近GPU处理单元。该技术利用GPU服务器中闲置的CPU、内存和NVMe存储资源，消除外部存储阵列需求，降低延迟并提升数据传输速度。系统具备容错能力，可应对GPU节点频繁重启和故障。相比传统架构，该方案可显著降低基础设施成本和功耗，每增加一个GPU节点即可自动扩展存储容量和吞吐量。

Quobyte公司推出了GPU融合存储技术，旨在将其并行文件系统和对象存储软件中的数据更靠近GPU，并随着GPU服务器的增加而扩展。

这一理念是通过使用GPU服务器现有的驱动器并将其集群化、融合到共享池中，来简化和加速GPU服务器的数据存储。

Quobyte营销主管Saurabh Kumar表示："GPU服务器包含的远不止GPU。每个节点都配备强大的CPU、大容量RAM和快速本地NVMe存储。然而，在大多数环境中，这些资源都未得到充分利用。在大规模部署中，这种闲置容量成为现代AI集群中最大的隐性低效问题之一。GPU融合存储提供了一种将这种未充分利用转化为价值的方法。"

在超融合基础设施（HCI）设备系统出现之前，存储是通过网络链路由外部存储阵列提供给一组应用服务器的。例如，存储区域网络（SAN）为应用服务器提供块存储。HCI改变了这种模式，通过拥有虚拟化应用服务器集群。例如，VMware系统使用其本地存储驱动器，创建虚拟SAN（vSAN）。这消除了外部阵列及其网络链路，随着新应用服务器的添加而轻松扩展，并降低了成本。

Quobyte将同样的理念应用于GPU服务器。这些服务器通常有两种处理器。GPU通常配备专用高带宽内存（HBM），用于运行需要高度并行处理例程的工作负载，还有CPU及其DRAM作为主机处理器，将GPU服务器连接到其运行的系统网络中。存在两个独立的内存：GPU的HBM和CPU的DRAM。

GPU服务器还有本地存储驱动器，通常是NVMe SSD，由CPU（通常是x86处理器）管理。Quobyte的GPU融合存储将这些本地驱动器转换为跨GPU服务器集群扩展的存储池。该池中的数据被输入到CPU的DRAM中，然后根据需要以高速度和低延迟传输到GPU的HBM中，延迟远低于从外部阵列传输数据的情况。Quobyte的预取算法在这里发挥了优势。

Kumar说："通过在GPU节点本身上运行存储并使用其多余的CPU和闪存，组织可以降低成本、功耗、设备数量、交换机端口和整体基础设施复杂性。"

他举了一个功耗成本节约的例子："在大约10,000个GPU节点的集群中，CPU平均利用率约为30%，未使用的70%仍然消耗大部分功率预算。即使保守估计每个节点200瓦的空闲CPU功率，乘以数千个全天候运行的节点，每年的电费可能超过2.5亿美元。这些CPU被供电、冷却和付费，但很少被充分利用。GPU融合存储将这种浪费转化为生产性基础设施。"

Quobyte指出，GPU服务器并非万无一失，经常会停机。Kumar写道："GPU节点的行为不像典型的存储服务器或设备。它们经常重启进行更新，运行前沿内核和软件版本，并且在出现故障时经常被移除或更换。"

该公司的容错文件系统软件为此类中断提供保护。它假设硬件会故障，并确保在节点中断发生时维护数据完整性和可用性。GPU融合存储通过节点重启和故障保持可用。

Quobyte表示，GPU融合存储降低了整体成本，因为它"使用GPU节点内的备用CPU、RAM和NVMe来降低基础设施支出和功耗，而无需添加新硬件。"每个添加的GPU节点都会自动贡献存储容量和吞吐量。没有单独的存储层需要独立调整大小、部署或扩展。Kumar说这"符合现代AI的经济学：规模正在加速，但功率和空间却没有。"

有兴趣的各方可以在此处申请访问Quobyte的GPU融合存储。

Q&A

Q1：GPU融合存储是什么技术？

A：GPU融合存储是Quobyte公司推出的一项技术，它将GPU服务器现有的本地驱动器集群化并融合到共享存储池中，使数据能够更靠近GPU处理，提高数据传输速度并降低延迟。

Q2：GPU融合存储能带来什么好处？

A：GPU融合存储可以充分利用GPU服务器中闲置的CPU、RAM和NVMe存储资源，降低基础设施成本、功耗和复杂性。据估算，在10,000个GPU节点的集群中，仅电费一项每年就能节省超过2.5亿美元。

Q3：GPU融合存储如何处理服务器故障问题？

A：Quobyte的容错文件系统软件专门为GPU服务器的特殊情况设计，能够应对GPU节点频繁重启、更新和故障的情况，确保在节点中断时仍能维护数据完整性和可用性。

来源：BLOCKS & FILES

0赞

好文章，需要你的鼓励

Quobyte推出GPU融合存储技术优化AI集群数据处理

来源：BLOCKS & FILES

2025

12/17

07:59

分享

点赞

Zoom推出AI Companion 3.0智能体工作流程

ChatGPT成为互联网最受阻止的爬虫机器人

英伟达推出开源权重模型填补美国AI市场空白

Meta推出SAM Audio模型：AI音频分离新突破

英伟达推动数据中心增长，以太网交换机销售创纪录

Quobyte推出GPU融合存储技术优化AI集群数据处理

泰恩港采用私有5G网络实现运营效率显著提升

艾伦人工智能研究所推出Molmo 2，为AI系统带来开放视频理解能力

Adobe Firefly新增基于提示词的视频编辑功能

对话AppsFlyer王玮：预算回升、格局收紧，“素材”成为新的竞争战场

NVIDIA Nemotron 3 系列开放模型： 击穿AI“工程墙”开启“Agentic AI”的“Linux时刻”

W.AWARDS金网奖2026未来商业计划领航秀峰会收官

艾伦人工智能研究所推出Molmo 2，为AI系统带来开放视频理解能力

Adobe Firefly新增基于提示词的视频编辑功能

英伟达考虑增产H200芯片满足中国市场激增需求

IBM推出开源智能体CUGA 任务完成率超五成

OpenAI支持的生物技术公司Chai Discovery获1.3亿美元B轮融资

塑造2026年的八大智能手机趋势

AI架构师荣获《时代》杂志年度人物称号

iOS 26.2让用户可再次调整液态玻璃透明度

停止将AI拟人化：这样做的危害性分析

Nutanix推出分布式主权云服务 强化多云环境安全运营

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

NVIDIA Nemotron 3 系列开放模型：击穿AI“工程墙”开启“Agentic AI”的“Linux时刻”

Nutanix推出分布式主权云服务强化多云环境安全运营