4月26日,由上海市经济和信息化发展研究中心、上海市网络算力协会共同主办的“2024长三角算力基础设施建设论坛”在上海成功举办。论坛汇聚了来自主管部门的领导及权威专家,围绕“算力引领 产业创新”为主题,聚焦计算力、运载力、存储力以及应用赋能做数字经济、实体经济落地实施进行探讨。会上,华为数字能源上海总经理石忆应邀发表主题演讲——“让数字世界坚定运行 共赢智算未来”并受到现场领导及专家的广泛关注和好评。
华为数字能源上海总经理石忆
智能世界加速到来,算力驱动数据中心迎来高速增长
石忆在演讲中提到,随着人工智能进入千行百业,智慧物流、智能制造、智能客服等应用场景相继涌现,目前人工智能正迭代式跨越发展,加快通用人工智能时代的到来。伴随而来的是算力需求的爆发,据有关数据显示,预计2020至2030年这10年间,通用算力将增长10倍,AI算力将增长500倍,预计到2030年,算力基础设施市场空间将达5000亿美元。
面对巨大的市场,智算建设也面临诸多的挑战,在石忆看来,主要面对的挑战有以下4点:
• 更多的资源消耗:根据报告预测2018年至2025年间,GPU功耗将从250W增加至1400W,增大5.5倍,单柜功率将从5KW增加至50KW增长10倍;全国数据中心耗电量将由社会总耗电量的1.6%增长至6%。
• 更快的上线速度:一般大型智算中心建设周期要在12个月,但高速的算力需求增长迫使智算中心的建设周期缩短至6~9个月。
• 更高的运维难度:2018年至2023年间,专业运维人员缺口由38%增大至53%,除智算中心的建设高速增长外,智算中心运维系统的增多也是造成人员缺口的原因之一。
• 更大的安全挑战:以盘古大模型checkpoint 4h为例, 中断一次的损失将超过41万元,一旦宕机超过100万美元,损失比例也由2019年的11%增长至2023年的25%。
智算时代下,绿色跟安全是下一代智算中心的两大特性
石忆看来,下一代智算中心从建设到运维全流程要符合“绿色”与“安全”两大特性。
绿色方面要从“极简”出发,符合供电极简、温控极简、能效自优三个方面。
• 供电极简:依托华为的根技术与架构的极简,通过扑翼式开关,1柜4开关实现部件融合, 10千伏到380伏的供电输出下,从22柜压缩至11柜,节省40%空间;此外,在开启S-ECO的模式下,链路效率最高可达97.8%,实现从简单的物理连接走向融合供电,实现省地、省电。
• 温控极简:华为间接蒸发冷却EHU方案,最大化利用自然风冷却的冷链极简,自研高效风机,提升制冷CLF 35%;华为自研高分子换热芯,相比冷冻水可降低用水量57%,从而实现节能、节水。
• 能效自优:通过一次部署,AI自学习,实时调优,可实现制冷耗电量下降8%~15%,年电费节省约500万(场景模型为 1500柜@北京,8kW/柜,2N,50%负载,改造前运行PUE 电费0.75元/kWh,机柜租金7360元/月,年省电费300-600万CNY)。
通过“极简”的架构,客户可以获得更快的建设速度,满足快速上线的需求,在智算时代的大背景下,快人一步,抢得市场先机。
而在安全方面,则要从主动安全、运维安全、架构安全三个层面,全方位构筑数据中心基础设施安全防线。
• 主动安全:通过AI的预测性算法,变“被动告警”为“主动AI预测性维护”(如风扇及电容寿命预测,铜排温度检测,提升可靠性),极大降低故障率,防患于未然。同时借助AI的能力,一旦发生故障,将传统的人工响应改为自动响应,做到1分钟发现,3分钟分析,5分钟恢复,降低故障所造成的影响。
• 架构安全:结合华为在电子电力技术及ICT技术的耕耘,采用模块化架构设计,通过部件级的热插拔,设备级的全冗余,做到系统级99.999%的高可用性。
• 运维安全:在日常运维中充分利用人工智能技术,结合智能传感/IoT/声音识别/图像识别等技术,将传统人工巡检模式向AI远程巡检模式转变,降低对运维人员的专业性要求。
融合数字技术和电力电子技术,共建绿色美好未来
华为数字能源以融合数字技术和电力电子技术,发展清洁能源与能源数字化,推动能源革命,共建绿色美好未来为愿景。将充分发挥世界领先的根技术体系与端到端的研发体系,构筑世界领先、稳健安全的技术生态体系;其次,将发挥数字技术与电力电子技术融合优势,创造行业独特价值;其三,通过全栈式解决方案,融会贯通L1-L3更加高效;其四,通过世界级的市场体系、生态体系、管理体系、企业文化,赋能客户、伙伴以及产业,带来更多的价值。
好文章,需要你的鼓励
微软推出 Copilot+ PC 标准,要求配备高性能 NPU,引发 AI PC 市场格局变化。英伟达虽在数据中心 AI 领域占主导,但在 PC 端面临挑战。文章分析了英伟达的 AI PC 策略、NPU 与 GPU 的竞争关系,以及未来 GPU 可能在 Copilot+ 功能中发挥作用的前景。
专家预测,随着人工智能技术的迅速发展和广泛应用,2025 年可能成为 AI 泡沫破裂的关键一年。尽管 AI 仍有望在多模态模型和自动机器学习等领域取得突破,但技术瓶颈、投资回报率下降、监管趋严以及环境和伦理问题等因素可能导致 AI 热潮降温。未来 AI 发展将更注重平衡和可持续性。
研究表明,现有的公开 AI 模型在描述大屠杀历史时过于简单化,无法呈现其复杂性和细微之处。研究人员呼吁各相关机构数字化资料和专业知识,以改善 AI 对这段历史的理解和表述。他们强调需要在 AI 系统中加入更多高质量的数据,同时在审查和信息获取之间寻求平衡。
Google 推出名为 Titans 的新型 AI 架构,是 Transformer 的直接进化版。Titans 引入了神经长期记忆、短期记忆和基于惊喜的学习系统,使 AI 更接近人类思维方式。这一突破性技术有望彻底改变 AI 范式,推动机器智能向人类认知迈进一大步。