近日,施耐德电气全球数据中心科研中心总监、爱迪生专家林密在行业会议上针对人工智能的市场规模、属性、发展趋势、对数据中心基础设施的影响以及应对策略等方面,阐述了施耐德电气对此的探索和思考。
智算引领算力产业变革
进入2023年,以ChatGPT为代表的人工智能大模型应用层出不穷,越来越多的企业和个人开始关注并使用大模型工具。智算中心作为面向人工智能的算力基础设施,也成为了数据中心产业投资建设的热点。
一般来说,人工智能算力主要可以分为“训练”和“推理”两种,它们有着不同的特点和需求。“训练”是通过使用大量的结构化数据来训练一个模型,该过程需要依赖高性能的智能芯片(比如GPU),以追求训练时间和成本的优化,但对时延和弹性的要求不高。“推理”则是用训练好的模型来处理新的数据,比如语音识别、图像分析、智能工厂、无人驾驶等,相比训练的需求,推理的算力密度较小,但由于直接面向应用场景,对时延和弹性的要求非常高。
在介绍人工智能的市场规模和分布时,林密表示,人工智能的训练负载和推理负载因其不同特性,对智算中心也有不同的需求。训练主要是在大型、超大型的集中式数据中心进行,推理则需要部署在贴近用户侧的数据中心和边缘数据中心。
根据施耐德电气的研究和推演数据显示,当前人工智能的负载占整个数据中心负载的8%,其中边缘的 AI 负载占比为5%。预计到2028年,人工智能的负载将占整个数据中心负载的15%到20%,同时,随着更多人工智能应用的普及,更多的算力也会更多地部署在分散的边缘数据中心,边缘数据中心的 AI 负载在智算负载中的占比将增长至50%。
此外,人工智能的算法也在不断迭代。以ChatGPT为例,从 GPT-3 到 GPT-4,参数数量、训练时间、能耗等都增加了至少一个数量级,对算力的需求也更加庞大。
数据中心基础设施面临的挑战
人工智能算力需求对数据中心的挑战是全方位的,智算中心是为满足人工智能算力需求而诞生的新型数据中心,需要考量智算的特性来建设。林密以供配电和制冷两个方面为例,仔细分析了人工智能算力需求的特点和对智算中心建设的影响。
从供配电角度看,因为人工智能服务器往往需要部署高密度GPU等智能芯片,其功耗和散热需求都远超普通服务器。林密通过数据进行了对比:传统机柜的运作功率一般只有 5 千瓦到 8 千瓦,而一个人工智能机柜的功率密度可以达到 30 千瓦到 100 千瓦,且在使用期间往往是100%满负载运行。
因此,智算中心对供配电的规格、可靠性和安全性要求越来越高。这就需要智算中心配备更大规格的配电柜和母线,比如800A的母线,以满足400千瓦到500千瓦的IT负载。同时,也需要使用更大容量的rPDU,比如100A、125A的rPDU,来给机柜供电。
此外,比如电流强度的增加也造成了弧闪危险的增加,智算中心需要做好短路分析,选择更可靠的设备,防止断路器脱扣造成下游的断电和停机等,相比传统数据中心需要注意的细节也更多。
制冷方面,林密表示,风冷已经很难满足人工智能机柜的制冷需求,而液冷虽然可以提供更高的制冷效率,但当前也面临着产业标准化、漏液风险、流量分配、管道洁净度、温度控制、运维复杂度等方面的难题。
他建议,如果机柜功率密度超过 20 千瓦,就应该采用液冷,可以是冷板式液冷或浸没式液冷。同时,要尽量采用标准化液冷系统的设计,比如冷板、分集液器、CDU、快接等,以提高兼容性和可靠性。另外,通过引入一些创新的技术,比如LPS负压系统,可以降低漏液风险。
同时,液冷的应用,以及高密度的硬件配置,会导致IT设备的体积和重量增加。这就对机柜的尺寸和承重能力提出了更高的要求。因此,林密建议,人工智能机柜设计的宽度至少达到 750 毫米,深度至少达到 1200 毫米,高度要保持在 48U 以上,静载承重能力则要在 1800 公斤以上,才可以承载、容纳智算服务器和液冷系统。
智算时代更需要可持续发展
“施耐德电气从覆盖楼宇、IT和配电领域的智能化硬件、从设计、建设到运维的全生命周期数字化软件和咨询服务三个维度,全方位帮助客户实现可持续发展。”林密表示,随着算力需求的增长和越来越多的智算中心建设,算力基础设施的能耗和碳排放也在不断增加,施耐德电气依托前瞻创新技术与丰富实践经验可以全方位帮助客户应对挑战。
在硬件方面,施耐德电气可以为智算中心提供了绿色高效的数字化产品,包括供配电设备、液冷系统等,并根据人工智能负载的特点和挑战,为客户提供策略和建议,从机柜、供配电、制冷等方面帮助客户打造可持续发展的智算中心基础设施。
同时,以全生命周期可持续发展为核心,施耐德电气推出了一系列的指标和工具,用于衡量数据中心对环境的影响,包括能源消耗、可再生能源的利用、水资源的利用、温室气体排放、废弃物产生与处理以及对当地生态环境影响的维度,并且围绕可视化碳足迹来源,针对性地提出优化策略。
施耐德电气还可以为客户提供咨询服务,赋能客户从战略层面规划和优化数据中心的可持续发展,包括绿电的采购、电池的回收等方面,帮助客户降低数据中心对环境的负面影响。
“根据Guidehouse Insights的最新排名,施耐德电气目前已经成为全球最大的绿电(PPA)解决方案提供商。”林密表示。
此外,作为当之无愧的数据中心行业思想领袖,施耐德电气一直致力将对数据中心行业的前沿技术、发展趋势以及最佳实践的研究成果分享给行业伙伴。比如两年前发布的面向数据中心可持续发展的第67号白皮书《用于衡量数据中心环境可持续性指标的指南》,以及最新发布的面向人工智能的第110号白皮书《人工智能带来的颠覆:数据中心设计的挑战及相关指南》等,都受到了行业的广泛重视和采纳。
人工智能是时代前进的强大驱动力之一,也将为数据中心行业带来重大变革。“施耐德电气一直在关注人工智能需求的发展,并通过不断地研究和创新,持续为智算中心的可持续发展提供解决方案。” 林密表示。
好文章,需要你的鼓励
在Meta Connect大会上,Meta展示了新一代Ray-Ban智能眼镜的硬件实力,配备神经腕带支持手势控制,电池续航翻倍,摄像头性能提升。然而AI演示却频频失败,包括Live AI烹饪指导、WhatsApp通话和实时翻译功能都出现问题。尽管Meta在智能眼镜硬件方面表现出色,但AI软件仍远未达到扎克伯格提出的"超级智能"目标。文章建议Meta考虑开放AI生态,允许用户选择其他AI服务商,这可能帮助Meta在AI硬件市场获得优势。
DeepSeek-AI团队通过强化学习技术开发出DeepSeek-R1系列推理模型,无需人工标注即可自主学习复杂推理。该模型在数学、编程等领域表现卓越,在AIME 2024中达到79.8%准确率,编程能力超越96%人类选手。研究团队还通过知识蒸馏技术将推理能力传递给小模型,使7B参数模型也能超越GPT-4o。这项突破为AI推理能力发展开辟新路径。
英伟达同意以50亿美元收购英特尔股份,双方将合作开发多代数据中心和PC产品。英伟达将以每股23.28美元的价格收购约4%的英特尔股份,成为其最大股东之一。两家公司将通过NVLink接口整合各自架构,实现CPU和GPU间的高速数据传输。英特尔将为英伟达AI平台定制x86处理器,并开发集成RTX GPU的x86系统级芯片,用于消费级PC市场。
微软研究院推出rStar-Math系统,通过创新的"深度思考"训练方法,让小型AI模型在数学推理能力上达到甚至超越OpenAI o1水平。该系统采用代码验证、过程偏好模型和四轮自进化训练,将70亿参数模型的数学能力从58.8%提升至90.0%,在美国数学奥林匹克竞赛中达到前20%水平,证明了精巧方法比模型规模更重要,为AI发展开辟了新路径。