过去几年,AI芯片的故事讲得最多的是GPU、HBM、先进封装和光模块。但当大模型越做越大,真正让数据中心“跑起来”的,不只是单颗芯片有多强,而是成千上万颗芯片能不能像一个整体一样协同工作。
这就引出了一个正在升温的新词:OCS,Optical Circuit Switch,光电路交换机,也常被称为全光交换机。
听起来很“通信”,但它其实和半导体行业密切相关。因为OCS里面最核心的部件之一,是MEMS微镜阵列;而决定OCS能不能真正进入AI数据中心的关键,也不只是“能不能把光切过去”,而是MEMS芯片、自由空间光路、准直封装、闭环校准、热稳定和量产一致性这一整套工程能力。
一、AI数据中心为什么突然需要OCS?
可以把AI数据中心想象成一个超级工厂。GPU、TPU、XPU是工人,每个工人都很强,但大模型训练不是一个人闷头干活,而是几千、几万名工人同时分工、交换中间结果、再继续计算。
问题来了:如果工人之间传话太慢,工人就会等;如果传话太耗电,电费和散热就会爆;如果路线太绕,整体效率就会下降。AI集群越大,网络就越像“算力工厂的道路系统”。
传统电交换机EPS更像一个大型邮局。每个数据包进来后,交换芯片要读取地址、判断去向、排队、转发。这个过程非常灵活,适合互联网业务里碎片化、随机性的流量。但AI训练有很多大颗粒、周期性、可预测的通信,比如不同GPU之间反复做参数同步、梯度交换和集合通信。对于这类流量,如果每次都进“邮局”拆包、看地址、排队,效率并不高。
OCS的思路更像铁路调度。它不打开车厢看里面装了什么,而是直接把轨道切好:从A站到B站,形成一条专用光路,光信号沿着这条路直接过去。它不关心传的是400G、800G还是未来1.6T,也不关心里面跑的是以太网、InfiniBand还是自定义协议。只要光功率够、链路预算够,它就是一条“透明的光纤高速路”。
所以,OCS不是要替代所有电交换机,而是在AI数据中心里增加一层“可编程的物理光连接层”。电交换机继续负责灵活的包处理,OCS则负责把高带宽、强规律、可调度的流量从电交换层中解放出来。
二、OCS到底改变了什么?
OCS最核心的变化,是把“网络拓扑”从固定的布线,变成可以软件定义的物理连接。
过去数据中心网络通常采用多级Clos架构,服务器先连ToR,再连Leaf、Spine,规模越大,交换层级越多,光模块、SerDes、交换ASIC、功耗和故障点都会增加。OCS引入后,可以在某些场景下替代部分Spine层,或者在GPU/TPU机柜之间建立动态直连光路,让数据少走弯路。
这带来三个直接价值。
第一是低功耗。OCS的数据路径本质上是光路重定向,不需要每一跳都做光-电-光转换,也不需要交换芯片逐包处理。对于功耗已经极高的AI数据中心来说,网络每省下一瓦,背后都是电源、散热和机房容量的改善。
第二是低时延。AI训练中很多通信是同步的,一个节点慢,全局都要等。OCS不做复杂包处理,等于减少了中间环节。
第三是跨代复用。电交换机的生命周期往往跟交换ASIC和端口速率绑定,从400G到800G再到1.6T,设备更新压力很大。OCS更像一套光纤基础设施,对速率和协议透明,只要光链路预算满足,就有机会跨代继续使用。
这也是为什么OCS不能只被看作“交换设备”。在AI数据中心里,它更像“算力资源组织工具”:把GPU/TPU机柜、训练Pod、备份资源池、不同任务切片,用光路重新组织起来。
三、Scale-Up、Scale-Out、Scale-Across,OCS分别能做什么?
AI集群扩展大致可以分三类。
Scale-Up,是单节点或单机柜内的纵向扩展,比如把更多GPU放进一个系统,让它们像一台更大的机器一样工作。这里对带宽和时延最敏感,OCS可以配合光互连,把机柜之间的边界进一步打薄。
Scale-Out,是多节点、多机柜、多Pod的横向扩展。现在大模型训练往往不是几十张卡的问题,而是几千、几万张卡如何协同的问题。OCS的价值在于可以根据训练任务,把某些机柜临时组成一个更紧密的拓扑,任务结束后再释放给其他作业。
Scale-Across,是跨数据中心扩展。它把地理上分散的数据中心连接成更大的AI工厂。这个阶段不仅考验带宽,还考验资源调度、故障恢复和成本控制。OCS虽然不是唯一方案,但它代表了一个方向:网络不再只是“传数据”,而是参与算力资源的编排。
以Google TPU集群为例,资料中提到TPU v4 SuperPOD由64个Rack构成,对应4096个TPU v4芯片;Cube内部通过PCB和铜缆互连,外部则通过光模块和OCS连接。可以理解为:小范围内用电连接追求极致密度,大范围内用光连接追求距离、带宽和灵活重构。
四、为什么MEMS是OCS的主流路线?
OCS有多种技术路线,包括MEMS、数字液晶/LCoS、直接光束偏转、硅光波导等。它们各有特点,但在高端口、低插损、协议透明的数据中心OCS中,3D MEMS自由空间光路目前最受关注。
MEMS OCS可以想象成一个微型“光学反射大厅”。输入端是一排排光纤准直器,把光纤里发散的光变成平行光束;中间是MEMS微镜阵列,每个微镜都可以在二维角度上精确偏转;输出端也是光纤准直器阵列。系统通过控制微镜角度,把任意输入端口的光束反射到目标输出端口。
这里的MEMS微镜不是普通镜子,而是半导体工艺制造的微米级可动结构。它既有芯片属性,又有机械属性,还要和光学系统深度耦合。这也是半导体行业关注OCS的原因:它不是传统通信设备的简单升级,而是“MEMS芯片+精密光学+先进封装+控制算法+自动化制造”的综合体。
相比液晶方案,MEMS的切换速度和端口扩展能力更适合高性能场景;相比硅光波导方案,3D MEMS自由空间路径在高端口下更容易保持较低插损和协议透明;相比机械式方案,MEMS更容易做到较高集成度和毫秒级切换。
当然,MEMS也不是万能。它有运动部件,需要高精度驱动,需要长期保持光斑耦合,还要解决温度漂移、振动、封装应力和阵列一致性问题。这些才是产业化真正的难点。
五、OCS的壁垒,不是“光能不能切过去”
实验室里让一束光从A端口打到B端口,并不是最难的。真正困难的是:几百个端口、几万种连接组合,每一条路径都要低插损、低回损、低串扰,而且在数据中心长时间运行中不能明显漂移。
插损可以理解为“路上损失了多少光”。OCS每多损失1dB,都会压缩光模块的链路预算,可能让客户不得不用更高功率、更贵的光模块。回损则像“光的回声”,反射太大,会干扰高速PAM4信号,影响误码率。温漂则像高速铁路轨道的热胀冷缩,微小偏移就可能让光斑没有准确耦合进目标光纤。
因此,优秀的MEMS Optical Core必须具备几项能力:一是高一致性的MEMS阵列芯片;二是高精度光纤准直器阵列和透镜阵列;三是稳定的自由空间光路结构;四是温度补偿和闭环监控;五是自动化装调和全连接标定;六是长期可靠性和可维护性。
换句话说,OCS的核心不是一面会动的小镜子,而是一套能在数据中心环境中长期稳定工作的“光学发动机”。
六、什么是MEMS Optical Core?
如果把OCS整机比作一辆车,机箱、电源、风扇、控制软件像底盘和车身,那么MEMS Optical Core就是发动机和变速箱。
它通常包括MEMS微镜阵列、光纤准直器阵列、透镜阵列、滤光片、监控光路、驱动控制、温控结构和标定算法。产业链中,整机厂可以做系统集成、网络管理、SDN接口和客户交付;而Optical Core厂商负责最难的光学核心。
这也解释了为什么很多具备MEMS、精密光学和自动化装调能力的企业,更适合先从核心模块切入,而不是一开始就直接做OCS整机。数据中心客户对整机可靠性、运维接口、生态适配要求极高,初创公司直接挑战整机并不容易。但如果能证明自己的Optical Core在插损、回损、温漂、校准和可靠性上达标,就有机会进入网络设备厂、云厂商自研平台或光模块/光器件产业链。
七、国产替代看什么?
OCS的国产替代,不应只看“有没有样机”,而要看能不能过工程化门槛。
第一,看参数分布。不是展示一条最佳光路,而是看所有端口组合的插损分布、最差值和温循后的变化。
第二,看回损和高速链路验证。真正的数据中心场景要接400G、800G甚至更高速光模块跑误码率和FEC裕量。
第三,看自动化制造。手工调出来的样机不等于可量产产品。OCS的装调和标定需要自动化设备、工艺窗口和一致性控制。
第四,看长期可靠性。MEMS微镜、镀膜、胶水、封装窗口、准直器阵列都会受到温度、湿度、振动和时间影响。
第五,看客户验证。OCS不是孤立器件,它必须接入真实AI集群的网络架构、调度系统和运维体系。
结语:OCS是AI算力网络的“光学底座”
AI数据中心的竞争,表面上是芯片算力的竞争,深层次是系统工程的竞争。GPU再强,如果网络跟不上,集群效率也会被拖住。OCS的意义就在于,它让数据中心网络从“固定道路”走向“可重构光路”,让算力资源可以更灵活地组织。
对半导体产业来说,OCS打开的是一个交叉赛道:MEMS工艺、精密光学、光通信封装、驱动IC、热设计、自动化装备和系统软件都会被卷入其中。未来真正有价值的企业,未必是一开始就喊出“做整机”的企业,而是能把MEMS Optical Core做到低插损、低回损、低温漂、可校准、可量产、可维护的企业。
AI时代,数据中心不只需要更强的芯片,也需要更聪明的“光路”。OCS,正是这条光路背后的关键基础设施。
256