【湾芯展推荐】本文涉及的相关厂商:Broadcom、AcceLink、AMD、Google、Lumentum
超高功率ELSFP和VCSEL CPO
OCP 2025在上个月落下了帷幕,本来业界都在期待NVIDIA展示新的技术和产品,但是在早些时候的GTC和Hot Chip已经展示过了,还是有不少从业者蛮失望的。但是笔者细细浏览还是挖掘到了不少干货,尤其是Accelink的超高功率ELSFP和Broadcom的基于VCSEL激光器的CPO方案。
Accelink的超高功率ELSFP(External Laser Small Form-Factor Pluggable-外置激光光源小型化可拔插光模块)采用外置高功率光源方案,通过“光电同口”设计,实现光源和光引擎物理分置,避免了系统的散热效率不足问题,采用1310nm 4或8通道多模并行传输,单通道光功率高达25dBm,满足3.2T CPO光引擎的要求,并且封装OIF ELSFP标准,支持热拔插,无需整机维护,可快速替换,大幅提升智算中心运营的灵活性与可靠性。
从现场分享实验数据来看,8通道25dBm的超高光输出功率稳定控制在±0.2dBm内,并且温度也控制在40度上下,光功率和稳定堪称卓越。不仅性能超群,其在光路设计也有不错的优化,PER最小为16dB,超高的光耦合效率和较低的光反射。在PCB设计部分加入了噪声滤波器和高能效DC模块,在保持高能效的同时将噪声降到最低。最值得一提是其做了独到的热管理优化,众所周知激光器内的激光二极管对于温度变化极其敏感,在高功率情况下,其热灵敏度达到±0.1度,并且激发功率会随着使用寿命缓慢降低,这就需要良好的温度补偿和老化性能补偿控制了。
Accelink还推出了针对多种互联距离场景的LPO方案,450km超远距离QSFP-DD 400G ZR/ZR+模块的光功率最大功率可达5dBm,主流的800G光模块超低功耗最大仅需8w。
此外博通也展示基于VCSEL采用两个光引擎的6.4Tbps CPO方案,比较小众但是十分独特,展会资料显示,其I/O带宽可做到12.8Tbps,距离小于30米,每比特能耗达到1pJ,在可拓展性和可靠性上十分优越。
不用内置DSP和VCSEL采用CMOS 驱动 和TIA(跨阻放大器)方案使得整体功耗很低约为1pJ/bit,其扩展成本很低,虽然目前无法扩展到100G以上,但是综合成本和可靠性该方案还是有其独到之处的。
COUPE的可靠性居然比传统封装高
另一个比较反直觉的是,从业者通常认为新的封装形式可靠性一定是劣于成熟封装的,那CPO光电共封装和引线键合封装来比,可能十个人会有八个人给出引线键合的会更加可靠的结论。事实上先进封装例如COUPE、RDL、3D封装的可靠性比引线键合Wirebond的高出不少,Broadcom也在大会上展示了其基于COUPE的CPO的MTBF(平均无故障工作时间)。
24000个GPU的AI算力集群采用 TH5-Bailly CPO 技术后,训练效率提升了90%,并且相较于400G可拔插光模块在MTBF提升了约2~3倍,在高密度、高性能场景下拥有更高的可靠性与稳定性。
得益于CPO封装中几乎不采用引线键合,通过垂直通孔或者RDL工艺能够实现更好的互联同时,封装的可靠性也比较高。总的来说,决定一个封装可靠性遵循“木桶原理”,据统计在CPO封装中最薄弱的元器件当属锗基光电探测器了(Ger-PD),其对于静电放电异常敏感,比其他光电器件都脆弱得多。CPO设计中会将锗基光电探测器集成到硅光芯片中,这样一来晶圆级封装能够减少分立式封装集成时的静电击穿风险。
另一方面,CPO采用外置激光器方案,比收发器内置集成激光器方案的可靠性高的多,首先大部分激光器由III-V族(例如InP磷化铟)材料制成,量产良率低且可靠性很差,并且对于环境温度要求苛刻(详见公众号另一推文,《【光电共封CPO】深度剖析光电共封为何对外置激光光源情有独钟》),随着使用寿命增加电荷密度带来性能退化使得输出功率不稳定。所以CPO选择外置激光器的方案,可以避免电子器件带来的散热问题,并且高功率激光器可以多路驱动。而且可热拔插式的外置激光器方案可以快速替换,机组系统的可靠性进一步提升。
结语
OCP 2025大会还有很多亮点,Accelink的外置高功率激光光源确实足够惊艳,VCSEL的CPO虽然带宽是个瓶颈,但是确实是一个不错的思路。CPO这种光电共封装无论从性能还是可靠性上都是传统封装所不能与之抗衡的方案,在亿万参数大模型时代,互联速率和可靠性要求进一步提升,CPO将会逐渐取代LPO。
*参考资料
1.《OCP Global Summit 2025: Irrational Recap》
2.《OIF_PLL_Demo_CICT_Accelink_OFC2024》
616