Quobyte公司推出了GPU融合存储技术,旨在将其并行文件系统和对象存储软件中的数据更靠近GPU,并随着GPU服务器的增加而扩展。
这一理念是通过使用GPU服务器现有的驱动器并将其集群化、融合到共享池中,来简化和加速GPU服务器的数据存储。
Quobyte营销主管Saurabh Kumar表示:"GPU服务器包含的远不止GPU。每个节点都配备强大的CPU、大容量RAM和快速本地NVMe存储。然而,在大多数环境中,这些资源都未得到充分利用。在大规模部署中,这种闲置容量成为现代AI集群中最大的隐性低效问题之一。GPU融合存储提供了一种将这种未充分利用转化为价值的方法。"
在超融合基础设施(HCI)设备系统出现之前,存储是通过网络链路由外部存储阵列提供给一组应用服务器的。例如,存储区域网络(SAN)为应用服务器提供块存储。HCI改变了这种模式,通过拥有虚拟化应用服务器集群。例如,VMware系统使用其本地存储驱动器,创建虚拟SAN(vSAN)。这消除了外部阵列及其网络链路,随着新应用服务器的添加而轻松扩展,并降低了成本。
Quobyte将同样的理念应用于GPU服务器。这些服务器通常有两种处理器。GPU通常配备专用高带宽内存(HBM),用于运行需要高度并行处理例程的工作负载,还有CPU及其DRAM作为主机处理器,将GPU服务器连接到其运行的系统网络中。存在两个独立的内存:GPU的HBM和CPU的DRAM。
GPU服务器还有本地存储驱动器,通常是NVMe SSD,由CPU(通常是x86处理器)管理。Quobyte的GPU融合存储将这些本地驱动器转换为跨GPU服务器集群扩展的存储池。该池中的数据被输入到CPU的DRAM中,然后根据需要以高速度和低延迟传输到GPU的HBM中,延迟远低于从外部阵列传输数据的情况。Quobyte的预取算法在这里发挥了优势。
Kumar说:"通过在GPU节点本身上运行存储并使用其多余的CPU和闪存,组织可以降低成本、功耗、设备数量、交换机端口和整体基础设施复杂性。"
他举了一个功耗成本节约的例子:"在大约10,000个GPU节点的集群中,CPU平均利用率约为30%,未使用的70%仍然消耗大部分功率预算。即使保守估计每个节点200瓦的空闲CPU功率,乘以数千个全天候运行的节点,每年的电费可能超过2.5亿美元。这些CPU被供电、冷却和付费,但很少被充分利用。GPU融合存储将这种浪费转化为生产性基础设施。"
Quobyte指出,GPU服务器并非万无一失,经常会停机。Kumar写道:"GPU节点的行为不像典型的存储服务器或设备。它们经常重启进行更新,运行前沿内核和软件版本,并且在出现故障时经常被移除或更换。"
该公司的容错文件系统软件为此类中断提供保护。它假设硬件会故障,并确保在节点中断发生时维护数据完整性和可用性。GPU融合存储通过节点重启和故障保持可用。
Quobyte表示,GPU融合存储降低了整体成本,因为它"使用GPU节点内的备用CPU、RAM和NVMe来降低基础设施支出和功耗,而无需添加新硬件。"每个添加的GPU节点都会自动贡献存储容量和吞吐量。没有单独的存储层需要独立调整大小、部署或扩展。Kumar说这"符合现代AI的经济学:规模正在加速,但功率和空间却没有。"
有兴趣的各方可以在此处申请访问Quobyte的GPU融合存储。
Q&A
Q1:GPU融合存储是什么技术?
A:GPU融合存储是Quobyte公司推出的一项技术,它将GPU服务器现有的本地驱动器集群化并融合到共享存储池中,使数据能够更靠近GPU处理,提高数据传输速度并降低延迟。
Q2:GPU融合存储能带来什么好处?
A:GPU融合存储可以充分利用GPU服务器中闲置的CPU、RAM和NVMe存储资源,降低基础设施成本、功耗和复杂性。据估算,在10,000个GPU节点的集群中,仅电费一项每年就能节省超过2.5亿美元。
Q3:GPU融合存储如何处理服务器故障问题?
A:Quobyte的容错文件系统软件专门为GPU服务器的特殊情况设计,能够应对GPU节点频繁重启、更新和故障的情况,确保在节点中断时仍能维护数据完整性和可用性。
好文章,需要你的鼓励
OpenAI推出ChatGPT Images新版本GPT Image 1.5,承诺更好的指令遵循、更精确的编辑功能和高达4倍的图像生成速度。该模型面向所有ChatGPT用户和API开放。这是OpenAI在CEO奥特曼宣布"红色警报"后与谷歌Gemini竞争的最新升级。新模型提供后期制作功能,支持更精细的编辑控制,能在编辑过程中保持面部相似度、光照、构图和色调的视觉一致性,解决了传统AI图像工具迭代编辑时缺乏一致性的问题。
艾伦人工智能研究所开发的olmOCR 2通过创新的单元测试训练方法,将文档识别准确率提升至82.4%,在处理复杂数学公式、表格和多栏布局方面表现卓越。该系统采用强化学习和合成数据生成技术,实现了完全开源,为全球研究者提供了先进的OCR解决方案,推动了AI技术民主化发展。
Zoom推出AI Companion 3.0,采用联邦AI架构结合自研模型与OpenAI、Anthropic等第三方大语言模型。新版本具备智能工作流、对话式工作界面等功能,可将会议对话转化为洞察、进度跟踪和文档内容。系统支持加密传输,不使用客户内容训练模型。用户可通过ai.zoom.us访问,或以每月10美元独立购买。
苹果公司发布了包含40万张图片修改案例的AI训练数据集Pico-Banana-400K,涵盖35种修图操作类型。该数据集采用严格质量控制,包含成功失败案例对比和多轮修图场景。研究显示AI在全局修改方面表现优秀,但精细操作仍有挑战。这为AI修图技术发展奠定基础,未来将让修图软件更智能易用。