一、核心结论:OCS不是“新型交换机”,而是AI算力资源组织工具
AI数据中心的竞争正在从“单颗芯片算力竞争”进入“系统级算力效率竞争”。过去投资人关注GPU、HBM、先进封装、CPO、硅光和高速光模块;下一阶段,网络架构本身将成为决定AI集群效率的关键变量。
OCS,Optical Circuit Switch,光电路交换机,正是在这个背景下被推到台前。它不是传统以太网交换机的简单光口化,也不是普通光模块的下游延伸,而是一种可软件定义的物理光路重构设备。它的价值可以用一句话概括:让AI数据中心从“堆算力”走向“组织算力”。
如果说GPU是AI工厂里的工人,HBM是工人的记忆力,先进封装是工人的工作台,那么网络就是工人之间传递半成品和信息的道路系统。AI模型越大,工人越多,数据交换越密集,道路系统的拥堵、绕行、能耗和故障就越容易成为瓶颈。OCS的作用,是在数据中心里修建一套可动态切换的“光学高速立交桥”,让关键大流量不必每一跳都进入电交换机排队、解析、转发,而是通过直达光路快速通过。
OCS最重要的投资判断不是“谁能做一台OCS整机”,而是“谁掌握OCS里最难被替代、最难量产、最能形成议价权的核心光学能力”。在当前技术路线下,这个核心大概率集中在MEMS Optical Core,即MEMS微镜阵列、自由空间光路、光纤准直阵列、驱动控制、闭环校准、热稳结构和自动化装调能力。
我们的核心判断如下:
第一,OCS需求由AI集群网络架构升级驱动,而不是传统光通信周期驱动。其核心驱动力来自GPU/TPU/XPU大规模协同计算对低时延、低功耗、高带宽和可重构拓扑的需求。
第二,OCS不会短期全面替代电交换机,而会先在高价值场景渗透,包括Spine replacement、Scale-Up光互连、Scale-Out Pod重构、备份资源池化和物理数据中心切片。
第三,3D MEMS自由空间光交换是当前高端口、低插损、协议透明场景最具产业化确定性的路线,但真正壁垒不是“镜子能不能动”,而是低插损、低回损、低温漂、长期耦合保持、闭环校准、自动化装调和量产一致性。
第四,一级市场更适合关注MEMS Optical Core和关键器件平台型公司,而不是过早押注单一整机品牌。因为云厂商和网络设备厂具备整机、系统软件、运维和客户交付能力,而初创企业更现实的切入点是核心光学引擎。
第五,投资验证必须从“概念验证”转向“工程验证”:全连接插损分布、回损、温漂、可靠性、自动化标定、客户PoC和批量一致性,是判断项目真伪的硬指标。
二、为什么AI数据中心需要OCS?
传统数据中心网络主要服务互联网业务。互联网流量像城市快递:每个包裹大小不同、目的地不同、时间随机,因此需要非常灵活的包交换网络。电交换机EPS就像大型邮局,数据包进来后,交换芯片读取地址、查表、排队、转发,适合处理随机、突发、小颗粒流量。
但AI训练流量更像工厂流水线。成千上万颗GPU或TPU在同一个训练任务中反复同步中间结果,典型流量包括参数同步、梯度交换、All-Reduce、张量并行、流水并行、专家并行等。这些通信往往具有大颗粒、强同步、可预测、高带宽的特点。对于这类流量,如果每一跳都进入电交换机进行光-电-光转换和包处理,就会带来三个问题:
一是功耗高。高速SerDes、交换ASIC、缓存、包处理和光模块都消耗大量能量。AI数据中心本身已经面临供电和散热约束,网络功耗的边际影响越来越大。
二是时延和抖动。AI训练经常是同步型任务,一个节点慢,整个任务都要等。网络中间层级越多,排队、缓存、拥塞和路径变化带来的抖动就越明显。
三是扩展成本高。传统Clos网络通过增加Leaf、Spine等层级扩容,但每增加一层,都意味着更多交换芯片、更多光模块、更多布线和更多故障点。
OCS提供了另一种思路:不再把所有流量都交给电交换机逐包处理,而是对可预测的大颗粒流量提前建立端到端光路。它像铁路调度系统,不打开车厢检查货物,而是直接把轨道切好,让列车走专线。这样,光信号可以沿物理光路直接通过,中间不需要反复做O/E/O转换,也不需要解析包头。
因此,OCS在AI数据中心中的价值不是“多了一类交换设备”,而是多了一层可编程物理连接能力。它把数据中心网络从静态布线变成动态资源,使算力集群可以按任务、拓扑、故障和租户边界重新组织。
三、OCS与传统电交换机的根本差异
OCS和EPS的区别,不是“光口多一点”或“功耗低一点”这么简单,而是交换粒度和系统角色不同。
EPS是包交换,核心能力是逐包处理。它关心每个数据包从哪里来、到哪里去、优先级如何、队列如何管理、拥塞如何控制。EPS像一个聪明的邮局,适合动态、随机、复杂的流量。
OCS是电路交换,核心能力是建立物理光路。它不读取数据包内容,不理解协议,不做缓存和排队,只在输入端口和输出端口之间建立一条光学路径。OCS像铁路调车场或高速路闸门,适合大颗粒、可调度、持续时间较长的流量。
这种差异决定了OCS不会消灭EPS。未来AI数据中心更可能是“电交换+光交换”协同:
EPS负责灵活的小颗粒流量、控制面流量、突发业务和传统以太网功能;OCS负责大颗粒、高带宽、可预测的光路直连。两者不是替代关系,而是分工关系。
对投资人而言,这一点非常关键。OCS不是“下一代交换机全面替代传统交换机”的故事,而是“AI数据中心网络架构中新增一个高价值物理光层”的故事。它的渗透会从特定高价值场景开始,而不是一夜之间替换所有数据中心交换设备。
四、OCS的核心应用场景:从交换设备走向算力编排工具
OCS在AI数据中心中的应用,可以拆成五类场景。
1. Spine replacement:替代部分电Spine,降低网络层级
在传统Clos网络中,Spine层承担跨Leaf之间的高速互联。随着集群规模增大,Spine层需要大量高端交换ASIC和高速光模块,成本和功耗压力显著提升。OCS可以在部分场景中替代电Spine层,直接建立Leaf或Pod之间的光路连接,减少O/E/O转换和交换层级。
这个场景是OCS最容易被云厂商接受的切入点之一,因为它直接对应CAPEX、OPEX和功耗优化。
2. Scale-Up:构建更大的强耦合算力单元
Scale-Up强调把更多GPU/TPU组织成一个更大的“虚拟机器”。传统Scale-Up依赖板内、机内、柜内高速互连,但随着模型规模扩大,单柜边界被不断突破。OCS有机会配合光模块、CPO、光I/O等技术,把强耦合互连扩展到多柜甚至多Pod。
在这个场景中,OCS的价值不是简单转发数据,而是帮助形成更大的训练域。
3. Scale-Out:多机柜、多Pod之间动态重构拓扑
Scale-Out是当前AI集群扩展的主战场。不同训练任务对网络拓扑的要求不同,有的更适合环形,有的更适合网格,有的需要更强的东西向带宽。OCS可以按任务动态配置物理光路,使网络结构更贴近模型通信结构。
这相当于把数据中心网络从“固定道路”变成“可变形道路”。今天A任务需要1,024张卡,系统把相关机柜用光路组织成一个训练切片;明天任务结束,光路释放,再分配给B任务。
4. Backup pooling:备份资源池化与故障绕行
AI训练任务周期长、成本高,故障中断代价巨大。OCS可以把备用链路、备用机柜、备用Pod通过光路快速接入,绕过故障节点,提升训练连续性。
这个场景类似“高速公路事故后的快速改道”。传统网络也能做路由绕行,但OCS提供的是物理光路层面的重新连接,对大颗粒流量更直接。
5. Physical DC slicing:物理数据中心切片
传统多租户隔离多依赖VLAN、VRF、软件定义网络等逻辑隔离。OCS可以进一步实现物理光路隔离,把不同租户、任务或安全域划分到不同物理拓扑中。
对于超大规模智算中心、主权AI云和高安全需求场景,物理切片可能成为OCS的重要附加价值。
五、技术路线比较:为什么当前更看好3D MEMS自由空间方案?
OCS主要有四类技术路线:3D MEMS、数字液晶/LCoS、压电陶瓷/直接光束偏转、硅光波导。
1. 3D MEMS:高端口、低插损、协议透明的主流路线
MEMS OCS的核心是输入/输出光纤准直器阵列和MEMS微镜阵列。光从输入光纤出来后,被准直成平行光,再由微镜阵列改变方向,最终耦合到目标输出光纤。
它像一个微型光学调车场:每个微镜就是一个可精密控制的道岔。通过控制镜面二维角度,可以把任意输入光束导向任意输出端口。
3D MEMS路线的优势是端口扩展能力强、插损较低、串扰低、协议透明、波长和速率兼容性好。因此,它更适合AI数据中心高Radix OCS、Spine replacement和大规模光路重构。
短板是工程复杂度高,包括MEMS阵列一致性、自由空间光路对准、温漂控制、高压驱动、闭环校准、可靠性和自动化装调。
2. 数字液晶/LCoS:成熟但更适合低频重构
液晶方案通过电场改变液晶分子排列,从而影响光的偏振状态,并配合偏振分束器实现光路切换。其优势是没有机械运动部件,产品成熟度较高,适合无需频繁切换的场景。
但在AI数据中心高性能场景中,液晶方案面临切换速度、偏振处理、光路复杂度和系统损耗等挑战。
3. 压电陶瓷/直接光束偏转:低损耗但端口扩展受限
压电陶瓷方案通过微位移调整光纤准直器的位置和角度,实现光路对准。其光路简洁、传输损耗较低,但随着端口数扩大,机械位移和精密结构复杂度上升,限制大规模扩展。
它更适合某些低频、高可靠、低损耗的光路保护或测试矩阵场景。
4. 硅光波导:长期潜力大,但高Radix仍有工程挑战
硅光波导方案把光路矩阵集成在硅基芯片上,理论上切换速度可以做到微秒甚至纳秒级,具备高密度集成潜力。
但其当前主要挑战是插损较高、串扰控制难、热调谐复杂、高端口良率和可靠性尚需验证。对于板级或片上互连,硅光OCS有长期想象空间;但对于当前数据中心高端口、低插损、协议透明场景,3D MEMS仍更具工程确定性。
六、OCS真正的技术壁垒:不是“光能否切过去”,而是“能否长期稳定低损耗地切过去”
OCS容易被低估,是因为原理看起来并不复杂:一束光进来,一面镜子反射,再进入另一根光纤。但这只是实验室演示。真正的数据中心级OCS难在规模化、稳定性和一致性。
1. 低插损:决定链路预算
插损可以理解为光在传输过程中损失了多少能量。AI数据中心高速链路预算非常紧,OCS每增加1dB损耗,都会压缩光模块余量,可能导致更高功率、更高成本的光模块需求。
真正要看的不是某一条最佳路径,而是全连接矩阵的插损分布,包括P50、P95、P99和worst-case。
2. 低回损:决定高速PAM4链路稳定性
回损可以理解为光的“回声”。反射光会干扰主信号,影响信噪比和误码率。高速400G、800G、1.6T链路对反射更加敏感,尤其在双向单纤和环形器方案中,回损控制是硬门槛。
3. 温漂控制:决定数据中心长期可用性
MEMS镜面、准直器、透镜、胶水、金属结构、陶瓷基座都会热胀冷缩。光束耦合窗口极小,温度变化导致的微小偏移,可能让光斑偏离目标光纤。
OCS要进入数据中心,不仅要在25°C实验室表现好,还要在温循、振动、长期运行后保持低损耗。
4. 闭环监控与校准:决定可维护性
高端口MEMS OCS不可能只靠出厂一次性标定。它需要监控光、传感器、相机或功率监测系统实时判断光路状态,并通过算法修正镜面角度。
优秀的OCS必须是“光学系统+电子驱动+控制算法+遥测软件”的闭环系统。
5. 自动化装调:决定能否量产
MEMS阵列、光纤准直器阵列、透镜阵列之间需要极高精度对准。手工调出样机不等于能量产。产业化必须依赖自动准直、自动耦合、自动标定、自动测试和映射表生成。
6. 可靠性:决定客户是否敢用
OCS一旦部署在AI数据中心核心路径中,其故障代价很高。MEMS微镜疲劳、驱动电路可靠性、镀膜老化、封装应力释放、灰尘污染、湿热影响,都会成为客户验证重点。
七、MEMS Optical Core:产业链中最值得关注的价值锚点
OCS整机包括机箱、电源、风扇、控制板、网络管理软件、SDN接口、运维系统和光学核心。但从价值壁垒看,最核心的是MEMS Optical Core。
MEMS Optical Core通常包括:
MEMS微镜阵列、光纤准直器阵列、透镜阵列、滤光片、二向色镜、环形器、监控光路、驱动控制板、热稳结构、标定算法和校准数据。
如果把OCS整机比作一辆汽车,整机厂掌握车身、底盘、车机系统和服务网络;MEMS Optical Core厂商则掌握发动机和变速箱。对于一级市场而言,发动机公司往往比整车故事更适合早期投资,因为它更容易形成技术壁垒,也更容易进入多个整机客户。
这也是我们判断国产公司切入路径时的重要原则:具备MEMS芯片、精密光学、自由空间光路、驱动控制和闭环校准能力的企业,更适合先做Optical Core,而不是一上来就做整机。
原因有三点:
第一,整机客户壁垒高。云厂商和网络设备厂对整机的操作系统、运维接口、冗余设计、热插拔、现场交付要求极高,初创公司直接切整机难度大。
第二,核心模块更容易进入供应链。整机厂、光通信厂商、云厂商自研团队,都可能采购或联合开发Optical Core。
第三,价值集中。OCS的性能和成本主要由MEMS阵列、光纤阵列、透镜阵列、环形器、光电监控和自动化装调决定,核心模块具备更高技术含量和议价权。
八、产业链格局:上游价值高,中游看集成,下游看云厂商节奏
OCS产业链可分为三层。
1. 上游:核心器件与材料
包括MEMS微镜阵列、光纤准直器阵列、透镜阵列、滤光片、环形器、光放大器、精密结构件、驱动IC和监控器件。
这一层壁垒最高,也是国产替代最值得关注的环节。尤其MEMS微镜阵列和自由空间光学核心,既需要半导体制造能力,也需要精密光学和封装能力。
2. 中游:OCS设备集成与解决方案
中游厂商负责把Optical Core做成可部署设备,包括机箱、电源、散热、控制板、软件接口、网络管理、自动重校准和客户交付。国际厂商如Lumentum、Coherent、Molex等具有较强积累,国内光通信设备厂和光器件厂也在加快布局。
这一层的核心竞争力是系统工程能力和客户资源。
3. 下游:AI数据中心与智算中心
下游主要是Google、Meta、Microsoft、Amazon、国内云厂商、运营商智算中心和大型AI基础设施公司。
OCS需求释放节奏取决于两件事:一是AI集群规模是否继续扩大;二是云厂商是否愿意从传统电交换网络向光电协同架构演进。
OCS是AI算力网络从“堆设备”走向“组织资源”的关键一环
AI基础设施的第一阶段,是买更多GPU;第二阶段,是用更好的封装、HBM和光模块提高单机性能;第三阶段,则是如何把数万颗芯片组织成高效率、低功耗、可调度、可恢复的算力系统。
OCS正处在第三阶段的关键位置。它不是传统光通信的边缘创新,而是AI数据中心网络架构变化带来的新型基础设施。它让网络从“数据通道”变成“算力组织工具”,让物理拓扑可以被软件调度,让GPU/TPU资源可以按任务重新编排。
OCS行业的机会不在最热闹的概念层,而在最难啃的工程层:MEMS Optical Core。谁能把低插损、低回损、低温漂、长期稳定、闭环校准、自动化装调和量产一致性做好,谁才真正握住了OCS产业化的钥匙。
这是一条慢热但高壁垒的赛道。短期看客户验证,中期看量产一致性,长期看AI数据中心网络架构是否从电交换主导走向光电协同。对于具备耐心资本和产业资源的一级市场投资机构,OCS/MEMS Optical Core值得进入重点观察池。
221