4月26日,由上海市经济和信息化发展研究中心、上海市网络算力协会共同主办的“2024长三角算力基础设施建设论坛”在上海成功举办。论坛汇聚了来自主管部门的领导及权威专家,围绕“算力引领 产业创新”为主题,聚焦计算力、运载力、存储力以及应用赋能做数字经济、实体经济落地实施进行探讨。会上,华为数字能源上海总经理石忆应邀发表主题演讲——“让数字世界坚定运行 共赢智算未来”并受到现场领导及专家的广泛关注和好评。
华为数字能源上海总经理石忆
智能世界加速到来,算力驱动数据中心迎来高速增长
石忆在演讲中提到,随着人工智能进入千行百业,智慧物流、智能制造、智能客服等应用场景相继涌现,目前人工智能正迭代式跨越发展,加快通用人工智能时代的到来。伴随而来的是算力需求的爆发,据有关数据显示,预计2020至2030年这10年间,通用算力将增长10倍,AI算力将增长500倍,预计到2030年,算力基础设施市场空间将达5000亿美元。
面对巨大的市场,智算建设也面临诸多的挑战,在石忆看来,主要面对的挑战有以下4点:
• 更多的资源消耗:根据报告预测2018年至2025年间,GPU功耗将从250W增加至1400W,增大5.5倍,单柜功率将从5KW增加至50KW增长10倍;全国数据中心耗电量将由社会总耗电量的1.6%增长至6%。
• 更快的上线速度:一般大型智算中心建设周期要在12个月,但高速的算力需求增长迫使智算中心的建设周期缩短至6~9个月。
• 更高的运维难度:2018年至2023年间,专业运维人员缺口由38%增大至53%,除智算中心的建设高速增长外,智算中心运维系统的增多也是造成人员缺口的原因之一。
• 更大的安全挑战:以盘古大模型checkpoint 4h为例, 中断一次的损失将超过41万元,一旦宕机超过100万美元,损失比例也由2019年的11%增长至2023年的25%。
智算时代下,绿色跟安全是下一代智算中心的两大特性
石忆看来,下一代智算中心从建设到运维全流程要符合“绿色”与“安全”两大特性。
绿色方面要从“极简”出发,符合供电极简、温控极简、能效自优三个方面。
• 供电极简:依托华为的根技术与架构的极简,通过扑翼式开关,1柜4开关实现部件融合, 10千伏到380伏的供电输出下,从22柜压缩至11柜,节省40%空间;此外,在开启S-ECO的模式下,链路效率最高可达97.8%,实现从简单的物理连接走向融合供电,实现省地、省电。
• 温控极简:华为间接蒸发冷却EHU方案,最大化利用自然风冷却的冷链极简,自研高效风机,提升制冷CLF 35%;华为自研高分子换热芯,相比冷冻水可降低用水量57%,从而实现节能、节水。
• 能效自优:通过一次部署,AI自学习,实时调优,可实现制冷耗电量下降8%~15%,年电费节省约500万(场景模型为 1500柜@北京,8kW/柜,2N,50%负载,改造前运行PUE 电费0.75元/kWh,机柜租金7360元/月,年省电费300-600万CNY)。
通过“极简”的架构,客户可以获得更快的建设速度,满足快速上线的需求,在智算时代的大背景下,快人一步,抢得市场先机。
而在安全方面,则要从主动安全、运维安全、架构安全三个层面,全方位构筑数据中心基础设施安全防线。
• 主动安全:通过AI的预测性算法,变“被动告警”为“主动AI预测性维护”(如风扇及电容寿命预测,铜排温度检测,提升可靠性),极大降低故障率,防患于未然。同时借助AI的能力,一旦发生故障,将传统的人工响应改为自动响应,做到1分钟发现,3分钟分析,5分钟恢复,降低故障所造成的影响。
• 架构安全:结合华为在电子电力技术及ICT技术的耕耘,采用模块化架构设计,通过部件级的热插拔,设备级的全冗余,做到系统级99.999%的高可用性。
• 运维安全:在日常运维中充分利用人工智能技术,结合智能传感/IoT/声音识别/图像识别等技术,将传统人工巡检模式向AI远程巡检模式转变,降低对运维人员的专业性要求。
融合数字技术和电力电子技术,共建绿色美好未来
华为数字能源以融合数字技术和电力电子技术,发展清洁能源与能源数字化,推动能源革命,共建绿色美好未来为愿景。将充分发挥世界领先的根技术体系与端到端的研发体系,构筑世界领先、稳健安全的技术生态体系;其次,将发挥数字技术与电力电子技术融合优势,创造行业独特价值;其三,通过全栈式解决方案,融会贯通L1-L3更加高效;其四,通过世界级的市场体系、生态体系、管理体系、企业文化,赋能客户、伙伴以及产业,带来更多的价值。
好文章,需要你的鼓励
多伦多大学研究团队提出Squeeze3D压缩框架,巧妙利用3D生成模型的隐含压缩能力,通过训练映射网络桥接编码器与生成器的潜在空间,实现了极致的3D数据压缩。该技术对纹理网格、点云和辐射场分别达到2187倍、55倍和619倍的压缩比,同时保持高视觉质量,且无需针对特定对象训练网络,为3D内容传输和存储提供了革命性解决方案。
浙江大学与腾讯联合研究团队提出MoA异构适配器混合方法,通过整合不同类型的参数高效微调技术,解决了传统同质化专家混合方法中的表征坍塌和负载不均衡问题。该方法在数学和常识推理任务上显著优于现有方法,同时大幅降低训练参数和计算成本,为大模型高效微调提供了新的技术路径。
耶鲁、哥大等四校联合研发的RKEFino1模型,通过在Fino1基础上注入XBRL、CDM、MOF三大监管框架知识,显著提升了AI在数字监管报告任务中的表现。该模型在知识问答准确率提升超过一倍,数学推理能力从56.87%提升至70.69%,并在新颖的数值实体识别任务中展现良好潜力,为金融AI合规应用开辟新路径。
加州大学圣巴巴拉分校研究团队开发出能够自我进化的AI智能体,通过《卡坦岛拓荒者》桌游测试,这些AI能在游戏过程中自主修改策略和代码。实验显示,具备自我进化能力的AI显著超越静态版本,其中Claude 3.7模型性能提升达95%。研究验证了AI从被动工具向主动伙伴转变的可能性,为复杂决策场景中的AI应用开辟新路径。