聊聊光子计算

这里说的不是大号透镜那套光学计算（Optical Computing），而是能上芯片、能做产品路线图的光子计算（Photonic Computing）。

1）它到底牛在哪里？

带宽恐怖：光的并行度高、天然支持多路复用（颜色=波长），数据大巴一车一车拉。

几乎没热：波导里没有电阻电容那套焦耳热，通道级能耗很低（注意，是通道，不是系统）。

时延极低：光速加成，尤其适合超低时延互连/推理链路。

翻译成人话：做“搬运”和“加权求和”类的密集操作，光子像开了挂；但要当全能选手，还早。

2）为什么现在你买不到“光子计算芯片”？

工程大Boss：两座“转换大山”

光↔电（OE/EO）转换

模↔数（ADC/DAC）转换

真正烧功耗的往往不是“光算”，而是这些转换环节，系统里能吃掉大半的能耗。

产业界的务实选择：先把“光互联”做强做满（NVLink的光版、Intel Optical I/O、Ayar Labs 这类），先不做“光计算”核心。

因为今天把芯片间/板间的电连线换成光纤，账能算得过；把矩阵乘法全丢给光，账常常算不过。

3）那光子计算的“坑”都在哪？

坑A：面积太大

光器件要“喂光”才耦合得进去，尺寸很难无脑缩；微环谐振器做到 ~10 μm 左右已经逼近极限，再小耦合就崩。

端侧/可穿戴不友好：你不会给手环塞个 5 cm × 5 cm 的芯片。

但在数据中心/HPC：大 die 不是原罪。甚至可以玩 wafer-scale（整片晶圆上阵），工艺节点也不用卷 7 nm，150 nm 级就能跑。

Possible 路线：光子晶体、超表面、薄膜铌酸锂等新型器件，把“有效尺寸”再往纳米量级推。

坑B：可重构性与通用性

纯衍射“全光计算”（比如固定光掩模做卷积）能效爆表但难以重构，换任务要换“mask”。

做成“通用图灵机”意义上，光+电混合是现实解：可编程、可更新、可上量产配套。

坑C：配套电路复杂

你绕不开一圈外围：DAC/ADC、驱动、探测、时钟、温稳、校准……

项目管理翻译：BOM 胖、版图大、良率风险高、测试门槛高。

4）“全光计算”要不要上？

学术爽点：傅里叶、卷积、矩阵乘法等能“光学一次性做完”。

产品现实：重构难、任务窄，一换任务就要换结构；相比之下，存内计算（电子）在小模型推理上又快又可编程。

结论：做特定算法的“光加速器”可以；做通用CPU/GPU的替身，不现实（目前）。

5）可落地/可期待的方向（按“可做程度”排个序）

光互联优先（Now）

芯片内/芯片间/机柜间的高速低功耗链路，最有ROI。

KPI 关注：带宽密度（Tbps/mm）、能效（pJ/bit）、BER、插损预算、耦合良率。

“少转换”的光子计算（Next）

目标：减少 OE/EO + ADC/DAC 次数，把“算”尽量放在光域里做完、一次性读出。

典型器件：MZI（马赫-曾德尔阵列）、微环谐振器（MRR）做矩阵运算。

光子存内计算 / 相变材料（PCM）（Next-Plus）

用相变材料当“可调电/光学权重”，做类模拟矩阵乘。

风险点：耐久度、器件偏差、写入一致性、温漂。

适配场景：推理为主、低精度友好的模型块（如注意力/全连接）。

光学蓄水池（Reservoir）计算（Exploring）

很前沿，偏黑箱；适合时序/信号处理。

产品不确定性高，先做PoC别一上来排期。

光子 cache/register（延迟环）（Exploring）

用延迟环暂存数据，做流水/调度。

难点在系统级调度与时钟对齐，工程复杂度爆表。

算存融合（Compute-in-Memory with Photonics）（Moonshot）

MZI/MRR + 其他存储体融合，潜在收益大，工艺复杂度更大。

6）什么时候应该用光子？给你一个产品级“决策表”

需求场景	光互联	光子计算
芯片/板/机柜之间超大带宽（> Tbps）	✅ 立刻上	❌ 不必
超低时延链路	✅ 高性价比	⚠️ 仅特定算子
数据中心/HPC（面积不敏感）	✅	⚠️ 试点特定算子（如矩阵乘）
端侧/可穿戴（面积/成本敏感）	⚠️ 极少数高速接口	❌ 基本不考虑
特定固定算子（卷积/矩阵）且低重构需求	⚠️	✅ 作为加速器
通用可编程计算	❌	❌ 还是交给CPU/GPU/ASIC

7）做产品要盯的 KPI/风控点

系统能效：别只看“光路”pJ/OP，要把 OE/EO + ADC/DAC 算进去。

带宽密度 & 耦合效率：fibre-to-chip / chip-to-chip 的耦合良率、封装良率。

可重构规模：权重更新速度、可编程维度（多少×多少的矩阵）、精度（比特数）。

温度与漂移：谐振器热漂补偿成本（功耗+控制复杂度）。

良率 & 测试：大面积/wafer-scale 的工艺波动、量产测试时长。

软硬协同：编译栈/校准/映射工具是否跟上（没有工具链，硬件等于摆设）。

8）路线建议（面向路线图和里程碑）

Phase 0：光互联打底（0–12个月）

目标：把板级/机柜级链路先光起来，做实测 pJ/bit闭环。

里程碑：可量产的 800G/1.6T 模块 或 Chiplet 光I/O 小批验证。

Phase 1：特定算子光加速（并行推进，PoC 6–12个月）

选单一矩阵乘场景（如 Transformer FC/Attention 的某段），用 MZI/MRR 阵列做演示。

做系统级能效对比（含转换），设定“赢面阈值”（比如 >1.5× GPU 的系统能效才考虑集成）。

Phase 2：少转换架构（12–24个月）

系统架构把ADC/DAC 从环外挪到环内，或降低位宽/采样率；

打通编译/映射/校准工具链，和模型同学一起定精度容错策略。

Phase 3：量产可行性评审（18–36个月）

看BOM/良率/可测性是否达标；选DC/HPC 单一场景先小规模商用。

9）和团队沟通时你可以问的关键问题

我们的目标算子是什么？是矩阵乘还是卷积？算子稀疏/低比特能不能利用？

一条数据从“电域进”到“电域出”，经历了几次转换？每次的能耗/时延是多少？

温控怎么做？热漂补偿的功耗是否把优势吃掉了？

良率与校准策略是什么？大规模阵列如何快速量产测试？

上层软件/编译栈是否能把模型自动映射到光域阵列，并做误差感知训练/校准？

10）一句话版结论

短期：把“光”用在互联上，立竿见影。

中期：把“光”用在特定算子的加速器上，谨慎尝鲜，一切以系统级能效为王。

长期：等“少转换”架构与新器件成熟，才可能迎来通用性更强的光子计算平台。