这里说的不是大号透镜那套光学计算(Optical Computing),而是能上芯片、能做产品路线图的光子计算(Photonic Computing)。
1)它到底牛在哪里?
带宽恐怖:光的并行度高、天然支持多路复用(颜色=波长),数据大巴一车一车拉。
几乎没热:波导里没有电阻电容那套焦耳热,通道级能耗很低(注意,是通道,不是系统)。
时延极低:光速加成,尤其适合超低时延互连/推理链路。
翻译成人话:做“搬运”和“加权求和”类的密集操作,光子像开了挂;但要当全能选手,还早。
2)为什么现在你买不到“光子计算芯片”?
工程大Boss:两座“转换大山”
光↔电(OE/EO)转换
模↔数(ADC/DAC)转换
真正烧功耗的往往不是“光算”,而是这些转换环节,系统里能吃掉大半的能耗。
产业界的务实选择:先把“光互联”做强做满(NVLink的光版、Intel Optical I/O、Ayar Labs 这类 ),先不做“光计算”核心。
因为今天把芯片间/板间的电连线换成光纤,账能算得过;把矩阵乘法全丢给光,账常常算不过。
3)那光子计算的“坑”都在哪?
坑A:面积太大
光器件要“喂光”才耦合得进去,尺寸很难无脑缩;微环谐振器做到 ~10 μm 左右已经逼近极限,再小耦合就崩。
端侧/可穿戴不友好:你不会给手环塞个 5 cm × 5 cm 的芯片。
但在数据中心/HPC:大 die 不是原罪。甚至可以玩 wafer-scale(整片晶圆上阵),工艺节点也不用卷 7 nm,150 nm 级就能跑。
坑B:可重构性与通用性
纯衍射“全光计算”(比如固定光掩模做卷积)能效爆表但难以重构,换任务要换“mask”。
做成“通用图灵机”意义上,光+电混合是现实解:可编程、可更新、可上量产配套。
坑C:配套电路复杂
你绕不开一圈外围:DAC/ADC、驱动、探测、时钟、温稳、校准……
项目管理翻译:BOM 胖、版图大、良率风险高、测试门槛高。
4)“全光计算”要不要上?
学术爽点:傅里叶、卷积、矩阵乘法等能“光学一次性做完”。
产品现实:重构难、任务窄,一换任务就要换结构;相比之下,存内计算(电子)在小模型推理上又快又可编程。
结论:做特定算法的“光加速器”可以;做通用CPU/GPU的替身,不现实(目前)。
5)可落地/可期待的方向(按“可做程度”排个序)
光互联优先(Now)
芯片内/芯片间/机柜间的高速低功耗链路,最有ROI。
KPI 关注:带宽密度(Tbps/mm)、能效(pJ/bit)、BER、插损预算、耦合良率。
“少转换”的光子计算(Next)
目标:减少 OE/EO + ADC/DAC 次数,把“算”尽量放在光域里做完、一次性读出。
典型器件:MZI(马赫-曾德尔阵列)、微环谐振器(MRR)做矩阵运算。
光子存内计算 / 相变材料(PCM)(Next-Plus)
用相变材料当“可调电/光学权重”,做类模拟矩阵乘。
风险点:耐久度、器件偏差、写入一致性、温漂。
适配场景:推理为主、低精度友好的模型块(如注意力/全连接)。
光学蓄水池(Reservoir)计算(Exploring)
很前沿,偏黑箱;适合时序/信号处理。
产品不确定性高,先做PoC别一上来排期。
光子 cache/register(延迟环)(Exploring)
用延迟环暂存数据,做流水/调度。
难点在系统级调度与时钟对齐,工程复杂度爆表。
算存融合(Compute-in-Memory with Photonics)(Moonshot)
MZI/MRR + 其他存储体融合,潜在收益大,工艺复杂度更大。
6)什么时候应该用光子?给你一个产品级“决策表”
| 需求场景 | 光互联 | 光子计算 |
|---|---|---|
| 芯片/板/机柜之间超大带宽(> Tbps) | ✅ 立刻上 | ❌ 不必 |
| 超低时延链路 | ✅ 高性价比 | ⚠️ 仅特定算子 |
| 数据中心/HPC(面积不敏感) | ✅ | ⚠️ 试点特定算子(如矩阵乘) |
| 端侧/可穿戴(面积/成本敏感) | ⚠️ 极少数高速接口 | ❌ 基本不考虑 |
| 特定固定算子(卷积/矩阵)且低重构需求 | ⚠️ | ✅ 作为加速器 |
| 通用可编程计算 | ❌ | ❌ 还是交给CPU/GPU/ASIC |
7)做产品要盯的 KPI/风控点
系统能效:别只看“光路”pJ/OP,要把 OE/EO + ADC/DAC 算进去。
带宽密度 & 耦合效率:fibre-to-chip / chip-to-chip 的耦合良率、封装良率。
可重构规模:权重更新速度、可编程维度(多少×多少的矩阵)、精度(比特数)。
温度与漂移:谐振器热漂补偿成本(功耗+控制复杂度)。
良率 & 测试:大面积/wafer-scale 的工艺波动、量产测试时长。
软硬协同:编译栈/校准/映射工具是否跟上(没有工具链,硬件等于摆设)。
8)路线建议(面向路线图和里程碑)
Phase 0:光互联打底(0–12个月)
目标:把板级/机柜级链路先光起来,做实测 pJ/bit闭环。
里程碑:可量产的 800G/1.6T 模块 或 Chiplet 光I/O 小批验证。
Phase 1:特定算子光加速(并行推进,PoC 6–12个月)
选单一矩阵乘场景(如 Transformer FC/Attention 的某段),用 MZI/MRR 阵列做演示。
做系统级能效对比(含转换),设定“赢面阈值”(比如 >1.5× GPU 的系统能效才考虑集成)。
Phase 2:少转换架构(12–24个月)
系统架构把ADC/DAC 从环外挪到环内,或降低位宽/采样率;
打通编译/映射/校准工具链,和模型同学一起定精度容错策略。
Phase 3:量产可行性评审(18–36个月)
看BOM/良率/可测性是否达标;选DC/HPC 单一场景先小规模商用。
9)和团队沟通时你可以问的关键问题
我们的目标算子是什么?是矩阵乘还是卷积?算子稀疏/低比特能不能利用?
一条数据从“电域进”到“电域出”,经历了几次转换?每次的能耗/时延是多少?
温控怎么做?热漂补偿的功耗是否把优势吃掉了?
良率与校准策略是什么?大规模阵列如何快速量产测试?
上层软件/编译栈是否能把模型自动映射到光域阵列,并做误差感知训练/校准?
10)一句话版结论
短期:把“光”用在互联上,立竿见影。
中期:把“光”用在特定算子的加速器上,谨慎尝鲜,一切以系统级能效为王。
长期:等“少转换”架构与新器件成熟,才可能迎来通用性更强的光子计算平台。
640