人工智能产业的蓬勃发展推动算力规模快速增长、算力结构不断优化,多元化算力发展趋势日益凸显。近日,紫光股份旗下新华三集团在以“×AI”(乘AI)为主题的2024媒体与分析师沟通会上,重磅发布智算网络解决方案,将充分发挥“算力×联接”的倍增效应,以标准化联接支撑多元算力释放。新华三将通过对算力和联接技术进行最佳的调优与配合,打造一张全面满足异构算力需求的开放性网络,为智算中心不同规模的算力联接提供最优选择。

多元算力成主流 开放网络价值凸显
AI大模型的火热带动各类专用算力芯片需求激增,智能算力占比逐步提升,多元异构计算体系成为主流模式。在实际场景中,算力体系已形成庞大的生态系统,涉及大量计算单元内部的信息交互,网络不仅是连接算力单元的纽带,更决定了算力调度、数据流通的效率与稳定性。对此,新华三集团认为,解决CPU、GPU、网卡、光模块等异构组件间的互联问题,打造开放解耦、灵活扩展的网络联接,是构建多元融合智算体系的关键所在。通过将网络平台和智算平台解耦,可以充分发挥算力生态中各领域的优势,实现资源共享和高效协作,帮助客户享有先进的AI智算平台、优秀的网络设备和高品质的联接介质。此外,用户可利用以太网开放标准特质,逐步构建大规模智算集群,实现与现有设施的无缝互通,并根据业务需求灵活扩展升级。
智算网络解决方案 探索打通异构算力的开放网络
为满足更加严苛的智算需求,新华三集团探索全新智算网络解决方案,以灵活多样的组网方式、以及全场景网络调优技术满足不同场景、不同规模的智算中心网络建设需求,全面增强网络对于多元异构算力的承载能力。
●业界最全产品布局支持全模型组网:智算网络建设重视开放性、可部署性和扩展性,要求产品形态多样且支持开放协议。新华三拥有支持200G/400G/800G不同端口密度且形态丰富的交换机产品,支持单框单层、盒-盒两层、框-盒两层等多种灵活组网架构,提供了开放性、兼容性、扩展性、稳定性极强的网络环境和端到端异构互联保障。
●全局负载均衡带来极致带宽利用率:传统负载均衡技术难以适应AIGC集群训练中通信流量拥塞敏感性高、低时延、高吞吐等需求,易导致负载分担不均、整网吞吐下降等问题,影响训练效率。新华三提出SprayLink端网融合、LBN&DLB、FGLB全局负载均衡、分布式解耦机框DDC架构等在内的负载均衡技术组合,可提高网络带宽利用率至95%,实现全场景智算网络调优。
●数据面自愈技术实现微秒级故障收敛:网络设备通常是转控分离的,在发生故障时,通过控制面进行表项刷新、路径重算后下发到数据面,实现故障收敛。而这种处理方式所消耗的时间,在智算场景下影响巨大。针对智算场景中远端链路负载和故障检测以及流量实时调整需求,新华三推出DPSH数据面自愈技术,支持本地或远端链路Down后的流量快速切换,整个流量切换周期从毫秒级降低至微秒级,用户侧对链路故障无感知。
为AI算力场景而生 算力集群交换机提升智算网络整体可用性
为进一步提升智算网络整体可用性,新华三集团同步推出基于DDC架构(Disaggregated Distributed Chassis分布式解耦机框)的算力集群核心交换机H3C S12500 AI系列,旨在为用户提供更具扩展性、更易运维管理、更具成本效益的分布式解耦机框方案。

作为专为AI算力场景设计的产品,H3C S12500 AI系列具备信元级负载均衡、原生无损、超大规模的优势。其基于信元交换实现GPU解耦,对任意流量模型均能达到最佳负载均衡效果,确保100%无损传输,且最大可支持32K(400G)GPU卡,摆脱了传统框式设备端口容量上限。依托强大的生态解耦能力和优秀的算力网络性能,H3C S12500 AI系列可为用户构建天然零丢包的无损网络,提供自动化部署以及NCF与NCP的自组网能力,新增网元上线即可用,并且在网元失效时实现微秒级的拓扑收敛速度,是异构GPU互联的最佳选择。
此外,在异构算力网络的构建过程中,新华三将持续推进服务器内、外部GPU联接的标准化,实现异构GPU的智算集群,降低算力部署和应用的成本,并通过软件生态的标准化,打通智算孤岛,促进资源共享与产业共同繁荣。
网络是数字经济的载体,算力是数字经济的引擎,网络与算力的相互协同,将更好的推动数字经济蓬勃发展。面向AIGC时代的算力需求与挑战,新华三集团将秉持“精耕务实,为时代赋智慧”的理念,全力打造超高带宽、超低时延、超高可靠的高品质智算网络,为百行百业的数智发展注入强劲动能。
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。