在6月21日举办的华为开发者大会(HDC 2024)上,华为云CTO张宇昕介绍了下一代云基础设施——CloudMatrix。这一创新性的技术解决方案旨在解决当前云平台在大模型训练和使用中遇到的“算力墙”“内存墙”和“能效墙”等问题。
张宇昕表示,CloudMatrix改变了传统数据中心的架构和算力供给模式,将传统的以CPU为中心的主从架构,演进为多元算力对等全互联架构;并通过高速互联网络协议,将CPU、NPU、GPU 等算力资源全部互联和池化,从而把AI算力从单体算力演进到矩阵算力,开启智能算力新纪元。
目前华为云是业界唯一采用对等架构超节点技术提供算力服务的厂商,实现了业界领先的性能和可靠性。据悉,华为云超节点在算力方面相比业界单节点提升了50倍,大模型的checkpoint恢复时长低于10分钟,万卡集群线性度大于95%,远超业界水平。
值得一提的是,基于盘古大模型5.0的实测数据显示,在同等算力条件下,CloudMatrix相较于传统服务器集群架构,在模型训练效率上提升了68%。这一显著的提升,充分证明了CloudMatrix在云原生基础设施方面的技术领先性。
好文章,需要你的鼓励
Akamai最新发布的《2025互联网安全报告》其中的深刻变革:攻击者正在利用AI实现更精准、更自动化的攻击,而防御方也在借助AI构建更智能的安全体系。
本文介绍了 AvidXchange 的 CIO Angelic Gibson 如何借助有趣的学习机制,缓解员工对 AI 的担忧,并推动企业数字化转型以提升效率和创新能力。
Relyance AI 推出 Data Journeys 平台,精准追踪数据流向,大幅减缩合规准备时间,并提供自建部署选项,助力企业实现全面 AI 治理。
富士通与 Nutanix 合作,将经过日语优化的 Takane 模型部署在企业 AI 平台,实现私有及混合云环境中安全高效应用生成式 AI。