企业数据存储领域领导者 Solidigm正式揭幕其 AI 中央实验室。该实验室配备了专为多种AI工作负载量身打造的高性能、高密度的存储测试集群。
这座先进的 AI 中央实验室坐落于美国兰乔科尔多瓦的 FarmGPU 设施内,紧邻 Solidigm 总部。在这里,Solidigm 能够利用NVIDIA B200 和 H200 图形处理器,运行并研究真实的 AI 工作负载。这不仅为我们理解前沿存储技术如何最大限度地提升集群效率,提供了独到的见解,更让 Solidigm 在 AI 生态系统中的重要合作伙伴,有机会在先进的硬件平台上充分开展实验。
Solidigm AI 生态系统与合作伙伴关系高级总监 Avi Shetty 强调:“Solidigm AI 中央实验室将当前强大的 GPU 与领先的存储基础设施融合,为客户和开发者社区开启了前所未有的测试与联合创新篇章。Solidigm 希望这些能力可以惠及更多用户,同时证明了存储与 GPU 紧密集成的重要性与价值。”
该实验室在建设之初便秉持通用参考架构理念,客户可以在一个与全球大型数据中心保持一致标准的环境中,利用 Solidigm SSD测试其解决方案。此外,实验室还将大力推动存储研究,超越传统的组件级测试范畴,更深层次地理解服务器、机架乃至集群层面的真实应用场景。
Shetty 进一步指出:“如今,仅仅进行存储测试已远远不够。在AI 中央实验室,我们能够运行真实场景的AI 工作负载,并借助尖端遥测技术来优化系统性能和效率,以便更深刻地理解新兴工作负载对存储的实际需求。”
AI中央实验室配备了最新的高性能计算硬件,包括:
实验室可供测试的工作负载包括:
目前,该实验室已与多家机构建立了合作。其中之一是,Solidigm 与 Metrum AI 的专家们携手攻关,成功开发出一种创新技术,能够将 AI 数据从内存卸载至SSD,从而在使用 RAG(检索增强生成)进行推理时,将DRAM的使用量降低高达 57%。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。