光互联的核心意义
硅光子学和CPO正在迅速升温,在下一代AI工厂对海量带宽和超低功耗的爆炸性需求驱动下,光模块厂商800G/1.6T光模块进度纷纷提前,对于未来算力中心的纵向扩展xPU架构,国内外厂商动作迅速:Intel专注于其自研的光学计算互连(OCI),Nvidia发布了Quantum-X和Spectrum-X光子平台,台积电的COUPE平台、格芯的新一代算力芯片硅片代工,以及博通、美满和Ayar Labs等一众厂商都在推出自研的芯片和制造平台。
AI基础设施厂商也从原先的卷GPU核心和频率、卷ASIC性能和拼命堆先进制程,慢慢转移到真正限制系统性能的瓶颈-“数据移动”上来,这就是为什么CPO成为行业最受关注的技术。CPO不仅是将光模块变得更小封装在内部,更是将带宽提升到下一个层级(代际跃迁)。
COUPE平台介绍(图源:TSMC)
在大型算力机组中,GPU或ASIC并非孤立运行,必须实时与HBM、交换机、光模块高速通信,甚至在训练和推理时,海量的数据还要通过数据中心交换网络“瞬时”传输,随着模型规模不断提升,数据本身的移动占据了最大的带宽,这也正是传统铜缆互联的局限所在。互联带宽进入到112Gbps、224Gbps时,铜缆的发热、信号质量的下降还勉强可以接受,但是在448Gbps时,铜缆必须在很短的距离才能使用,一旦将机组规模扩大,信号质量下降的非常厉害,并且铜缆的高功耗让厂商也难以承受,所以400Gbps就是铜缆互联的物理极限,这也是趋肤效应、介电损耗、反射、串扰和封装寄生效应等物理层面的共同影响。
因此整个行业认识到,AI基础设施需要的不仅是更快的芯片,更是需要高效的数据传输通道,光模块和CPO开辟了光通信之路,光传输几乎没有损耗,且非常适合长距离传输,传统的电信号的串扰、电磁干扰、介电损耗等问题完全没有,而且光信号还具备电信号没有的波分复用这一优势。所以现阶段的算力集群主要都是架构成熟、灵活且易于维护的可插拔光模块,但是带宽需求还是太大了,可插拔光模块也开始遇到瓶颈,问题不仅在于光模块本身,更关键的是芯片与光模块之间仍存在一段高速电信号路径。这段距离越长,功耗越高,信号完整性挑战越艰巨,所以业界就干脆将光引擎直接放置在交换芯片、ASIC或先进封装的旁边,将电信号只需传输极短距离即可转换为光信号进行外部传输。
换言之,CPO并非简单缩小光模块,或是将封装在一起,而是将光电转换的位置从系统层电路板级挪到了芯片旁边硅通孔互联级。CPO将带来非常显著的三大优势:
○缩短高速电信号路径,极大程度上降低信号损耗和系统功耗
○提升封装内外的带宽密度,将板级封装体积缩小到芯片级封装
○硅光子晶圆制程和先进封装带来良率和产能的提升,良率提升后的大规模量产
CPO测试逼近物理极限
CPO使光学与先进封装走向更深度的融合,这意味着未来的AI系统将不再仅仅是芯片设计问题,而是一个涉及电、光、热、机械、材料协同优化的系统工程问题。随着800G、1.6T乃至更高速互连成为标配,光不再局限于数据中心机架间的传输,机组间互联、机房间互联乃至跨域互联都是可选项,光通信也将逐步靠近芯片,成为和电芯片同等重要的核心部件,但是现在横亘在量产面前的最大挑战之一便是测试。
传统半导体测试主要处理电信号、供电和时序等,测试插座(芯片级)和探针卡(晶圆级)测试设备通过和外部触点或者芯片pad稳定接触来进行电气测试;而CPO则不同不仅要具备传统的测试电信号的能力,同时还要使用一套复杂的设备进行光信号的测试,并且对于光路对准的精度要求极高。
举例来说,CPO使用的单模光纤纤芯直径仅为约9微米,这也就意味着在测试过程中光纤、光引擎、耦合器以及芯片上的光波导必须以极高精度对准,哪怕是数微米的错位,光信号的耦合效率也会大打折扣,导致测试结果的失真,尤其是量产测试。工厂流水线都是数十台甚至上百台机台对应大规模的晶圆级、封装好的芯片和光模块在规定的测试时间内进行可重复、稳定、不过杀(overkill,半导体术语:测试标准或者机台带来的误判将本来好的物料判定为次品,造成浪费)也不漏测(underkill,半导体术语:测试标准或者机台带来的误判将本来次品的物料判定为良品,造成出货)的量产测试,而现阶段CPO测试面对的难题并不是能不能测,而是如何在量产条件下稳定地测试,其测试接口能否跟得上系统架构升级的步伐。
台湾高雄的WinWay(穎崴科技)提出了一套全面的CPO测试方案,涵盖晶圆/芯片级、封装级和模块级三个测试层级的电气测试接口到CPO光电集成测试;在晶圆级/芯片级测试采用WLCSP晶圆级探针卡,通过“顶部电输入、底部光输出”的测试架构(即从上方实现电气接触,从下方进行光信号测量)。这种思路是在封装过程中直接对于CPO或硅光子封装体直接测试,在晶圆阶段验证核心光性能和电信号,而无需等到封装或模块组装完成后才发现潜在问题。
模块级测试几乎等同于CPO的真实使用场景,测试对象为一个整体,不再是单一的芯片或者封装体,这个包含了光引擎、电气连接、热结构和模块级信号完整性的完整系统需要及其复杂的测试系统,WinWay也给出了其跨代的HyperSocket™测试插座和一整套的测试设备。从产业流水线来看,WinWay的CPO战略并非简单地推出一款测试产品,而是构建一条从晶圆、芯片、封装到模块的完整测试路径。
大封装、热管理以及玻璃基板
AI算力芯片和HBM4还有1.6T/3.2T的光芯片将会让整个CPO封装体变得更大,I/O口数量也增多,还要有光信号电信号的不同接口。测试芯片越大对于测试接口的要求就越高,AI芯片封装不仅面积变大,还可能因材料堆叠、热膨胀系数失配和工艺应力而产生翘曲(warpage),测试接口需要保持均匀接触,每个触点受力均衡,电测试要不短路、不断路,而光测试接口更要对准,可想而知一个良好的批量化测试的插座,一个晶圆级电光融合复杂测试的探针卡该有多么重要。
CPO测试另一个问题是热管理,AI芯片的功耗增加极快,GPU、ASIC、光引擎等在模块级测试过程中往往需要满载状态性能(甚至过载以确保出货可靠),在这个过程中就会产生巨大的热量,测试机台必须拥有良好的散热,否则测试结果将不再可靠。同样WinWay也提出在测试插座也是用液冷技术,通过高效的热循环将插座的温升控制住。液冷测试可能不再只是极端情况的利基解决方案,而将成为先进AI封装测试的必要条件。
同样为了提升光信号的质量和量产能力(市场不会盲目追求新技术,会选择成本、规模、可靠的量产最优方案),CPO还有一个热门议题是玻璃基板,玻璃的热膨胀系数很低,并且加工容易,平面度也十分优异,非常适合用于光波导,如果采用玻璃基板代替原来的硅基板或者PCB板,就成为实现光电融合的传输载板。一旦实现玻璃基板也就意味着原本的电信号载体将演变为光电混合平台,那么材料、加工、对准、测试和可靠性都将被彻底改写。
还有一个行业目前在探讨的问题就是接口标准化,每家公司的CPO都有自研的光引擎、封装接口、光纤排列和测试规范,只有当交换芯片、光引擎、封装接口和测试规范逐步走向标准化,CPO才能从定制化工程迈向可规模化的工业制造。这也是为什么像英伟达这样的领军企业在推动CPO交换机规范,标准化并非限制创新,而是让供应链能够协同投入,使光引擎、测试接口、封装材料和系统厂商能够形成可复制的量产架构。
结语
CPO的成功不能仅靠光引擎或硅光子芯片,还需要将光学、电子、热管理、机械和封装集成为一个可量产、可测试、可维护并能被数据中心客户接受的整体。而测试接口标准化和光电混合测试插座这些一直在背后托举着大规模量产的“隐形力量”,正在从幕后走向厂商博弈的舞台中央。
文中插图为生成式AI生成
参考:
《From Electrons to Photons: CPO Test Interfaces Become the Next AI Infrastructure Battleground》-SEMIVISION
267