Quobyte公司推出了GPU融合存储技术,旨在将其并行文件系统和对象存储软件中的数据更靠近GPU,并随着GPU服务器的增加而扩展。
这一理念是通过使用GPU服务器现有的驱动器并将其集群化、融合到共享池中,来简化和加速GPU服务器的数据存储。
Quobyte营销主管Saurabh Kumar表示:"GPU服务器包含的远不止GPU。每个节点都配备强大的CPU、大容量RAM和快速本地NVMe存储。然而,在大多数环境中,这些资源都未得到充分利用。在大规模部署中,这种闲置容量成为现代AI集群中最大的隐性低效问题之一。GPU融合存储提供了一种将这种未充分利用转化为价值的方法。"
在超融合基础设施(HCI)设备系统出现之前,存储是通过网络链路由外部存储阵列提供给一组应用服务器的。例如,存储区域网络(SAN)为应用服务器提供块存储。HCI改变了这种模式,通过拥有虚拟化应用服务器集群。例如,VMware系统使用其本地存储驱动器,创建虚拟SAN(vSAN)。这消除了外部阵列及其网络链路,随着新应用服务器的添加而轻松扩展,并降低了成本。
Quobyte将同样的理念应用于GPU服务器。这些服务器通常有两种处理器。GPU通常配备专用高带宽内存(HBM),用于运行需要高度并行处理例程的工作负载,还有CPU及其DRAM作为主机处理器,将GPU服务器连接到其运行的系统网络中。存在两个独立的内存:GPU的HBM和CPU的DRAM。
GPU服务器还有本地存储驱动器,通常是NVMe SSD,由CPU(通常是x86处理器)管理。Quobyte的GPU融合存储将这些本地驱动器转换为跨GPU服务器集群扩展的存储池。该池中的数据被输入到CPU的DRAM中,然后根据需要以高速度和低延迟传输到GPU的HBM中,延迟远低于从外部阵列传输数据的情况。Quobyte的预取算法在这里发挥了优势。
Kumar说:"通过在GPU节点本身上运行存储并使用其多余的CPU和闪存,组织可以降低成本、功耗、设备数量、交换机端口和整体基础设施复杂性。"
他举了一个功耗成本节约的例子:"在大约10,000个GPU节点的集群中,CPU平均利用率约为30%,未使用的70%仍然消耗大部分功率预算。即使保守估计每个节点200瓦的空闲CPU功率,乘以数千个全天候运行的节点,每年的电费可能超过2.5亿美元。这些CPU被供电、冷却和付费,但很少被充分利用。GPU融合存储将这种浪费转化为生产性基础设施。"
Quobyte指出,GPU服务器并非万无一失,经常会停机。Kumar写道:"GPU节点的行为不像典型的存储服务器或设备。它们经常重启进行更新,运行前沿内核和软件版本,并且在出现故障时经常被移除或更换。"
该公司的容错文件系统软件为此类中断提供保护。它假设硬件会故障,并确保在节点中断发生时维护数据完整性和可用性。GPU融合存储通过节点重启和故障保持可用。
Quobyte表示,GPU融合存储降低了整体成本,因为它"使用GPU节点内的备用CPU、RAM和NVMe来降低基础设施支出和功耗,而无需添加新硬件。"每个添加的GPU节点都会自动贡献存储容量和吞吐量。没有单独的存储层需要独立调整大小、部署或扩展。Kumar说这"符合现代AI的经济学:规模正在加速,但功率和空间却没有。"
有兴趣的各方可以在此处申请访问Quobyte的GPU融合存储。
Q&A
Q1:GPU融合存储是什么技术?
A:GPU融合存储是Quobyte公司推出的一项技术,它将GPU服务器现有的本地驱动器集群化并融合到共享存储池中,使数据能够更靠近GPU处理,提高数据传输速度并降低延迟。
Q2:GPU融合存储能带来什么好处?
A:GPU融合存储可以充分利用GPU服务器中闲置的CPU、RAM和NVMe存储资源,降低基础设施成本、功耗和复杂性。据估算,在10,000个GPU节点的集群中,仅电费一项每年就能节省超过2.5亿美元。
Q3:GPU融合存储如何处理服务器故障问题?
A:Quobyte的容错文件系统软件专门为GPU服务器的特殊情况设计,能够应对GPU节点频繁重启、更新和故障的情况,确保在节点中断时仍能维护数据完整性和可用性。
好文章,需要你的鼓励
ChatGPT发布三年后,物理AI成为行业最新热词。物理AI是指在硬件中实现的AI系统,能够感知周围世界并进行推理以执行操作。与传统机器人不同,物理AI具备推理、行动和与环境交互的能力。智能眼镜是物理AI的典型代表,能够看到和听到用户所体验的内容。高通专家指出,AI可穿戴设备可以为机器人提供基于真实人类体验的高质量数据集,形成良性生态系统。
德国弗劳恩霍夫研究院提出ViTNT-FIQA人脸质量评估新方法,无需训练即可评估图像质量。该方法基于Vision Transformer层间特征稳定性原理,通过测量图像块在相邻层级间的变化幅度判断质量。在八个国际数据集上的实验显示其性能可媲美现有最先进方法,且计算效率更高,为人脸识别系统提供了即插即用的质量控制解决方案,有望广泛应用于安防监控和身份认证等领域。
来自加州大学伯克利分校和康奈尔大学的研究团队,通过分析130万篇学术论文发现,使用ChatGPT等AI工具的科学家论文产出平均提升40-60%,且英语非母语研究者受益最大。
布朗大学联合图宾根大学的研究团队通过系统实验发现,AI医疗助手的角色设定会产生显著的情境依赖效应:医疗专业角色在急诊场景下表现卓越,准确率提升20%,但在普通医疗咨询中反而表现更差。研究揭示了AI角色扮演的"双刃剑"特性,强调需要根据具体应用场景精心设计AI身份,而非简单假设"更专业等于更安全",为AI医疗系统的安全部署提供了重要指导。