戴尔新近发布带有并行文件系统的PowerScale F910系统。
PowerScale是戴尔在收购EMC Isilon横向扩展文件管理方案之后,为其定下的新名称。截至目前,戴尔共发布了五种全闪存PowerScale型号:F200、F210、F600、F710以及F900。其中F210与F710系统于今年2月份发布,采用PCIe Gen 5总线并配备Sapphire Rapids英特尔CPU。二者均属于直连存储设备的PowerEdge服务器,运行OneFS操作系统,支持将3到252个节点组建为集群。
而F910与F900一样,采用2RU机箱并配有24个NVMe驱动器。每个节点最多可容纳1.87 PB容量,意味着其采用的是61 TB SSD,我们猜测是由Solidigm提供的QLC驱动器。戴尔非结构化数据解决方案(UDS)部门高级产品经理Tom Wilson在F910博客中表示,“与之前发布的F710相比,F910每RU的密度提高了20%。”
F910本质上就是F900,只不过CPU从Cascade Lake升级到了Sapphire Rapids,总线也由PCIe Gen 3升级到了Gen 5。而且与F210和F710的OneFS 9.7版本相比,其9.8版本也更为先进。
F910可在本地使用,其OneFS v9.8操作系统可在公有云端作为APEX文件存储(亚马逊云科技与Azure)使用。戴尔表示,F910的流媒体性能比F900高出127%,速度可达Azure NetApp文件产品的6倍。戴尔还提到,这也是首款适用于英伟达DGX SuperPOD的以太网存储系统。
Wilson在博文中写道,“它加速了AI管线的模型检查点与训练阶段,并让GPU利用率保持在高位,每个集群将拥有高达300 PB的存储空间。”他还补充称,“通过提供高达上代产品2倍的每瓦性能,F910可以更好地控制存储成本并优化存储资源利用率。”这里的比较对象应该是运行有OneFS 9.5的F900。
OneFS 9.8提供RDMA for NFS v4.1,APEX File Storage for Azure以及基于源的IPv6网络路由。PowerScale OS据称可以保护AI数据免遭投毒和模型反演,即攻击者根据目标模型的输出训练自己的机器学习模型,从而根据目标模型的输出来倒推该模型接收到的输入数据。这类似于一种为AI模型建立数字孪生以实现的逆向工程。但戴尔并未公布OneFS抵御模型反演的具体实现方式。
戴尔ISG营销高级副总裁Varun Chhabra在简报中表示,“我们很高兴地宣布Project Lightning,它将为PowerScale中的非结构化数据提供并行文件系统。Project Lightning将提供极致的性能与无与伦比的效率,同时实现近线速义弟——网络利用率可达97%,并使得1000个需要大量数据的GPU达到供应饱和。”
“与传统的全闪存、横向扩展NAS解决方案相比,Lightning将提供20倍性能提升,这也使得PowerScale成为运行最先进AI工作负载的完美平台。”
戴尔的Project Lightning拥有悠久历史。早在2010年,该项目就涉及基于PCIe/闪存的服务器缓存技术。通过长期发展演进,PowerScale集群节点如今已可并行执行I/O。但戴尔并未透露F910软件将如何更改以添加并行文件系统访问的细节消息,OneFS 9.8版本的发行说明同样没有提及并行访问。
PowerScale家族各机型参数汇总。
我们不知道并行文件系统支持是否会扩展到其他全闪存PowerScale产品。明显也有其他人向戴尔提出了类似的问题。
Chhabra还补充了一些关于网络部分的要点:“随着GPU变得越来越大,其对网络资源的要求也越来越高。因此网络必须既能够承载GPU之间的数据流、又能继续传递好从服务器到存储间的数据流。网络规模日益庞大,因此我们与博通合作发布了一系列非常重要的公告,以帮助客户使用自己的AI网络结构,确保能够从基础设施中获取最优性能。我们提供基于以太网的网卡、交换机与网络架构的全面产品组合,而且在各个层面上都在不断进步。而一马当先的就是基于博通Tomahawk 5的全新PowerSwitch,将可支持400 G与500 G交换能力。”
Wilson指出,“我们将在今年下半年推出更进一步的增强功能。”具体包括:
PowerScale F910将于2024年5月21日起在全球范围内上市。感兴趣的朋友可以点击此处(https://www.delltechnologies.com/asset/en-us/products/storage/technical-support/h15963-ss-powerscale-all-flash-nodes.pdf)查看规格表,也可在PowerScale网站(https://www.dell.com/en-us/shop/powerscale-family/sf/powerscale#tab0=0)上找到关于戴尔AI优化型PowerScale节点的更多细节信息。
戴尔公司一位发言人告诉我们,“新的并行文件系统将在晚些时候推出,我们目前不会透露具体时间。”
PowerScale的市场定位
戴尔这套并行文件系统在IO方面的突破,使得PowerScale成为Lustre、IBM Spectrum Scale、VAST Data、WEKA以及其他并行访问文件系统存储厂商的直接对手。再考虑到所有最快的英伟达GPUDirect认证文件系统在本质上都为并行、而非按序设计,因此PowerScale也相当于是向AI模型训练领域迈出了坚实的一步。
2月2日,迈克尔·戴尔曾发推文表示:“如果存储系统无法以足够快的速度向英伟达交付数据,那么英伟达GPU往往会陷入闲置。也正因为如此,我们才打造出了世界上最快的AI存储方案PowerScale。”但这条评论与GPUDirect厂商的统计数据不符,从统计结果来看,与DDN、华为、IBM、NetApp以及BeeGFS、VAST和WEKA的并行系统相比,当时还在采用按序IO设计的PowerScale明显处于落后地位。
但现如今情况早已不同,我们也期待看到更新之后的PowerScale GPUDirect性能数据。
通过采用并行访问,PowerScale现在与NetApp也拉开了差异。NetApp的ONTAP文件系统产品为横向扩展设计,本质上并非并行;出于同样的理由,PowerScale与Qumulo也终于区分开来。
好文章,需要你的鼓励
谷歌地图将集成Gemini人工智能技术,旨在将其升级为一个"全知型副驾驶"助手。这一整合将大幅提升地图服务的智能化水平,为用户提供更加个性化和全面的导航体验。通过AI技术的加持,谷歌地图有望在路线规划、地点推荐和实时信息服务等方面实现重大突破。
这项由圣母大学和IBM研究院联合开展的研究,开发出了名为DeepEvolve的AI科学助手系统,能够像人类科学家一样进行深度文献研究并将创新想法转化为可执行的算法程序。该系统突破了传统AI要么只能改进算法但缺乏创新、要么只能提出想法但无法实现的局限,在化学、生物学、数学等九个科学领域的测试中都实现了显著的算法性能提升,为AI辅助科学发现开辟了新的道路。
微软研究人员发布新的仿真环境来测试AI智能体,研究显示当前智能体模型容易受到操纵。该名为"Magentic Marketplace"的合成平台让客户智能体与商家智能体进行交互实验。测试包括GPT-4o、GPT-5和Gemini-2.5-Flash等模型,发现智能体在面临过多选择时效率下降,且在协作方面表现不佳。研究揭示了AI智能体在无监督环境下的性能问题。
卡内基梅隆大学研究团队通过3331次大规模实验,系统揭示了代码训练如何提升AI推理能力。研究发现,代码的结构特性比语义内容更重要,适当的抽象形式(如伪代码)可以达到与原始代码相同的效果。不同编程语言产生差异化影响:低抽象语言有利于数学推理,Python更适合自然语言任务。这些发现为AI训练数据的科学化设计提供了重要指导。