企业数据存储领域领导者 Solidigm正式揭幕其 AI 中央实验室。该实验室配备了专为多种AI工作负载量身打造的高性能、高密度的存储测试集群。
这座先进的 AI 中央实验室坐落于美国兰乔科尔多瓦的 FarmGPU 设施内,紧邻 Solidigm 总部。在这里,Solidigm 能够利用NVIDIA B200 和 H200 图形处理器,运行并研究真实的 AI 工作负载。这不仅为我们理解前沿存储技术如何最大限度地提升集群效率,提供了独到的见解,更让 Solidigm 在 AI 生态系统中的重要合作伙伴,有机会在先进的硬件平台上充分开展实验。
Solidigm AI 生态系统与合作伙伴关系高级总监 Avi Shetty 强调:“Solidigm AI 中央实验室将当前强大的 GPU 与领先的存储基础设施融合,为客户和开发者社区开启了前所未有的测试与联合创新篇章。Solidigm 希望这些能力可以惠及更多用户,同时证明了存储与 GPU 紧密集成的重要性与价值。”
该实验室在建设之初便秉持通用参考架构理念,客户可以在一个与全球大型数据中心保持一致标准的环境中,利用 Solidigm SSD测试其解决方案。此外,实验室还将大力推动存储研究,超越传统的组件级测试范畴,更深层次地理解服务器、机架乃至集群层面的真实应用场景。
Shetty 进一步指出:“如今,仅仅进行存储测试已远远不够。在AI 中央实验室,我们能够运行真实场景的AI 工作负载,并借助尖端遥测技术来优化系统性能和效率,以便更深刻地理解新兴工作负载对存储的实际需求。”
AI中央实验室配备了最新的高性能计算硬件,包括:
实验室可供测试的工作负载包括:
目前,该实验室已与多家机构建立了合作。其中之一是,Solidigm 与 Metrum AI 的专家们携手攻关,成功开发出一种创新技术,能够将 AI 数据从内存卸载至SSD,从而在使用 RAG(检索增强生成)进行推理时,将DRAM的使用量降低高达 57%。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。