CPO已死,AIGC也难救

上周笔者参观了上海MWC大会,看到CPO交换机重新被抬上了展台桌面。

上周笔者参观了上海MWC大会,看到CPO交换机重新被抬上了展台桌面。作为一名硅光工程师兼通信行业从业者,不禁感慨昔日的“小甜甜”、现在的“牛夫人”也有重新上台的一天。早在2022年,CPO(Co-Packaged Optics)概念股也曾在技术圈子里掀起层层浪花,时至今日声音日渐趋微,渐渐淡出公众视线。今天就来聊聊这个过气网红,盘点下CPO淡出公众视野背后的原因。

CPO本质为光电高度集成,理论上成本/功耗收益明显

说起CPO,就得提到可插拔光模块。自从数据中心产业蓬勃发展,可插拔光模块和数据中心交换机就开始了长相厮守,相互成就,一路从100G发展到400G,直至今日的800G。

CPO已死,AIGC也难救

交换机和光模块(图片来源于网络,仅供示意)

交换机内部有一颗交换芯片,用于数据的转发。交换芯片被封装在基板上,并通过PCB上的走线连接到光模块笼子。光模块笼子从外部看就是一个插口,可用于插入光模块,这也是可插拔光模块的由来。

400G及以上速率的光模块主要有两个核心部件:

一个是光电转换单元,通过激光器将电信息转换为光信息后,经过光纤传输出去。 CPO交换机中的光电转化单元也被称为光引擎(Optics engine)。所谓光引擎就是通过硅光集成技术将传统光模块中的光电转换单元小型化,集成化。

另一个是光数字处理器(Digital Signal Processor,DSP)芯片, DSP具有非常强的信号均衡能力,能够降低噪声,提升信噪比。但DSP是光模块部件中的功耗大户,且价格并不便宜。

CPO已死,AIGC也难救

传统交换机与可插拔光模块

CPO技术通过集成方法,将光引擎和交换芯片放置在同一个基板上,通过光纤连接到交换机面板。交换芯片和光引擎紧邻封装在一起,可以极大地减少信号的传输距离,从而显著降低功耗,提高信号完整性,减少延迟,同时缩小了体积。

CPO技术听起来简直就是天顶星科技,格调高,非常戳人。这套概念让当时业内的硅光从业者狠狠振奋了一把。毕竟CPO是把硅光引擎和交换芯片集成在一起,用上了硅光技术对于硅光从业者来说就是重大利好,毕竟谁不希望自己从事的行业代表着未来方向呢。

CPO已死,AIGC也难救

CPO交换机示意图

CPO已死,AIGC也难救

封装在一个基板上的交换芯片和多个光引擎(图片来源于网络,仅供示意)

下图是一个业界典型的CPO系统demo,目前没有正式部署,其搭载使用8个通道的FR4 硅光引擎,单个硅光引擎可实现6.4T的传输容量,配套了64通道,8颗那就是51.2T的容量,甚至使用了TSV(Through Silicon Via),interposer,硅光Flipchip等先进的芯片封装技术。某厂商宣称,使用CPO系统可以将功耗降低30%。

CPO已死,AIGC也难救

某厂商CPO:左图为交换芯片与光引擎共封装,右图为光引擎中硅光芯片(图片来源于网络,仅供示意)

单看这个51.2T 的CPO是非常唬人的,彼时业界积极跟进,各路神仙下场施展神通,2022年各大展会,论坛如果不讲讲CPO都不好意思跟同行交流。业界各方也是纷纷开启脑洞,大胆畅想。早在2022年,业界已经大胆预测CPO技术下一跳就是Optical I/O技术了,把光引擎的外壳拿掉,交换芯片做成一个更为紧凑的整体,提升集成度,进一步降低功耗(见下图)。但设想毕竟只是设想,CPO在市场推广上遭受了滑铁卢。

CPO已死,AIGC也难救

CPO和光I/O(图片来源于网络,仅供示意)

CPO热潮昙花一现,可靠性、运维有致命缺陷,LPO 异军突起延续可插拔形态

正当CPO一路高歌猛进时,LPO横空出世,迅速替代CPO成为行业新宠。标志性事件为腾讯2022年底联合英伟达在开放数据中心论坛(ODCC)发表《112G线性互联解决方案白皮书》。LPO全称是linear pluggable optics,线性可插拔光模块,是传统可插拔光模块的一个变种。

下图比较直观地说明了传统可插拔,LPO可插拔光模块,CPO光电共封装的区别。

传统可插拔光模块系统中,交换芯片和可插拔光模块中都有数字处理功能,分别是DSP1和DSP2。CPO系统则是将光电转换单元转移到了交换芯片附近,仅保留交换芯片上的数字处理能力。与传统可插拔光模块相比,LPO可插拔光模块去除了内部的DSP芯片,使得光模块的价格和功耗显著降低,但依然维持着可插拔模块运维简单的优点。

CPO已死,AIGC也难救

可插拔,CPO,LPO 区别

由于LPO把可插拔模块的价格打了下来,功耗也降低了,收益明显,并且模块还是“可插拔”形态,还是那个陪伴交换机一路走来的“贤伉俪”。很多互联网厂商一看,还是原来的配方,价格功耗都降低了,最关键的是,可插拔光模块的运维手段还是原来的路子,不用担心CPO最致命的可靠性和随之而来的维护问题。可以想象下,如果CPO交换机任意一个光引擎坏了,整个CPO交换机就算报废了,对系统可靠性有极高的要求。

首先在可靠性方面,光元件的可靠性普遍低于电学元件。另外,CPO系统中需要将多个光引擎和交换芯片合封,散热肯定不如可插拔架构。据有效统计,按10度法则,环境温度每升高10度,硬件/模块失效率就增加1倍。反观CPO厂商,至今仍没有发布一定量级的可靠性验证结果,而大多数客户没有动力去针对CPO做大规模的试点,可靠性的质疑声一直存在。

其次,如果无法保障CPO的可靠性,那么简单方便的运维手段也可以作为一种补偿措施。然而CPO交换机运维困难的严重缺陷迟迟未被解决,出了问题只能整机更换,大大增加了运维的难度,影响运维效率。而传统可插拔光模块或者LPO光模块可以直接替换,运维简单。

第三则是标准化,不同数据中心、计算中心的框架都不尽相同,各个厂家CPO的技术方案也不大一致。如何进一步做到标准化,能够互联互通,才是CPO厂商迫切需要回答的问题。因此直到现在也没有看到CPO真正的商业落地。

这里引用下谷歌的观点,除了可靠性和可运维性之外,诸如加工良率、供应链安全、供电、后续的演进迭代等等技术和商务层面的问题也非常尖锐。

CPO已死,AIGC也难救

Google 对于CPO技术的观点

这下无论是设备厂商还是模块厂商迅速达成一致,CPO一时间被打入冷宫,只能看着LPO走上台前,万人追捧。

ChatGPT爆火点燃了全球AI算力建设的热情。由于CPO功耗低的优点,借助智算的风口,有重出江湖之势。乍一看似乎有理,但仔细分析更不可行。在AIGC大规模组网中,成千上万张卡协同计算一个训练任务,一旦一台CPO交换机故障,需要更换整个CPO网络节点,同时需要重新连线,严重影响了大模型的训练效率,须知现在AI训练时间无比珍贵。

与CPO的运维灾难相比,使用可插拔模块+交换机的组合,走分布路线,运维简单,符合传统运维习惯,单点故障替换简单,仅此一点就决定了智算的主流技术路线,业界OTT等主流AI玩家仍然延续“老路子”,即使是北美这些大户也并没有部署CPO。

总结

CPO虽然理论先进,但实际应用起来这几个问题就是拦路虎, 特别是在要求大规模组网的AIGC领域,系统的可靠性,以及可运维性都是非常重要的考量,所以在AIGC市场,厂商还是用脚投票选择了可插拔模块路线,LPO和传统DSP的可插拔光模块未来一定是业界主流。

最后的最后,再啰嗦一句:两到三年的时间尺度内技术总是被高估,就像CPO描绘了一个虚幻的图景,最后一直没有真正商用。而在十年的尺度内技术进步总是被低估,也许等不到CPO产品与生态的成熟,新的技术就会取而代之。

来源:业界供稿

0赞

好文章,需要你的鼓励

2024

07/05

20:19

分享

点赞