【本文涉及的相关企业】Nvidia、Lumentum、博通、中际旭创、天孚科技、新易盛
宕不起的机、花不起的电费
刚看完英伟达Dr. Alexis Björlin在2026年OFC(光纤通信大会)上的主旨演讲《吉瓦级AI工厂时代的网络技术》,这篇长达几十页的内部PPT,没有讲太多花哨的算法故事,而是非常直白地揭开了一个极其残酷的产业真相:算力中心未来将走向工厂化,大模型不再是代码和算法的软件范畴,吉瓦(千兆瓦特)级AI工厂将是这个时代“重资产、重工业”的基础实施。
本着这个底层逻辑梳理下,推理(Inference)将会是核心工作负载,算力就是整个工厂的营收,词元(Token)就是未来最刚需的大众商品,算力规模狂飙之下,Nvidia给业界算了一笔十分接地气的经济账。首先构造一个算力中心最基本的单位是单张的GPU算力卡,目前维持一个AI算力集群运转的运营成本大约是每小时每张GPU耗费3.4美元;根据目前的行业统计,由于各种硬件和软件叠加的庞大集群可靠性问题,大概会有10%左右的宕机时间,其中很大一部分是由网络和光模块故障引起的。以Meta公开的LLama3训练数据显示,16000张GPU组成的集群、54天的预训练周期中,共出现了466次任务中断。再加上部分地区网络不稳定,单个链路的性能下降,对于整体的“拖尾效应”,从而拖累整个集群的总吞吐量。所以这10%的宕机时间直接换算出成本的话大约是每天13万美元的直接损失,规模放大到英伟达正在规划的51.2万张GPU超级集群呢?每天的宕机损失将高达惊人的410万美元 。
OFC展会Nvidia演讲 (图源:OFC 2026)
所以Nvidia现在极其看重MTBI(平均中断间隔时间)这一指标,为了将企业代码研究专家的运行等待时间降到最低,Nvidia将网络遥测技术和底层节点遥测技术进行了史无前例的深度捆绑 (),力求做到预测性故障监控和系统自动恢复,在巨量节点构建的庞大拓扑结构里,一个微小的网络链路延迟,都会潜在影响着整个系统的性能。
OFC展会Nvidia演讲 (图源:OFC 2026)
被彻底撕碎的行业经验
时间倒退到两年前,2024年大模型刚起步,业界普遍的认知是:大模型训练师算力中心网络支撑的力气活,堆算力是当时最有效的解法,业内人士有一个心照不宣的名词“力大砖飞”;而模型一旦训练好,推理(Inference)其实只是个单节点任务,对通信带宽要求极低。当时MLPerf Inference v4.0基准测试也印证了这一点,最大的模型Llama2 70B,所使用的最快系统也不过是单节点的H200。但是时间来到2026年,整个行业的基本面被彻底掀翻,过去堆砌算力、高速铜缆互联和大功率水冷的行业经验被彻底撕碎;推理(Inference)任务直接膨胀到了数据中心级别从ChatGPT到如今的Claude Code,计算量直接暴增了10000倍。
OFC展会Nvidia演讲 (图源:OFC 2026)
Nvidia也将这种互联即将走向“绝境”的演进归结了四个阶段:
1.超大规模MoE(混合专家模型)
如今主流的模型动辄万亿参数,单个算力机组可怜的显存根本塞不下,必须将原本单一的Transformer网络层拆分成无数个“专家”,即用多个动态路由的“专家子网络”替代了单一的参数矩阵,分布在成百上千个节点上。以DeepSeek R1为例,该模型包含了58个MoE层,每层有256个专家,每个输入Token会被动态路由到不同的专家子网络,为了调用不同的专家,整个网络中充满了随机的All-to-All全互连流量,即每个GPU都需要与其他所有GPU完成数据交互,对交换机的压力呈几何级数放大。
OFC展会Nvidia演讲 (图源:OFC 2026)
2.计算与内存解耦的分布式推理(Disaggregated Inference)
解耦式推理架构的落地,实现了推理效率的量级跃升。推理可以细分为两步走:第一步读取输入(Prefill),这是个十分吃算力的操作(Compute bound);第二步生成Token(Decode),这步操作则十分吃内存且对延迟极度敏感(Memory bound)。这两步算力特性完全不同,目前Nvidia给出最高效的解法是将这两步彻底拆开到不同的计算池里,中间通过极其强悍的光互联交换机网络进行KV Cache状态的大量传输,这样就能确保填充的上下文数据能无损耗地传输到解码池,不产生性能衰减。
OFC展会Nvidia演讲 (图源:OFC 2026)
3.推理(Reasoning)模型的崛起
模型在输出答案前需要进行多轮复杂的“思考”,推高了对低延迟分布式算力的需求;尤其是新一代推理模型比上一代传统大模型单轮输入输出多了许多轮“内部迭代”和“多步思考”,在消耗更多Token的同时,生成回答质量也大幅提升。但是对于系统来讲,推理模型更需要极低的端到端延迟,用户的等待体验至关重要,模型思考的轮数越多,对跨节点运行的带宽要求就越高,同时对延迟也越发挑剔。
OFC展会Nvidia演讲 (图源:OFC 2026)
4.AI智能体(Agents)爆发
从去年的AI智能助手到今年的Openclaw,爆火的应用端催生出产业的无尽遐想,Nvidia在演讲中也多次提到开源AI Agent项目OpenClaw(ClawdBot),目前该github库星标数一夜之间超过Linux内核和React,成为史上增速最快的开源项目。Agents更像是“AI和AI自我式对话”,通过长上下文和长周期任务,可以自主完成代码、测试、迭代等一系列复杂操作。对于硬件来讲,则需要极长的上下文吞吐,还要求在大规模集群下保持极低的延迟。
OFC展会Nvidia演讲 (图源:OFC 2026)
为了应对新一代AI时代近乎变态的需求,传统的数据中心架构必须重构。正如英伟达所言:“数据中心本身就是一台大型计算机,而网络定义了这台计算机的边界” 。Nvidia描绘了其吉瓦AI工厂的野心,未来的Giga-Scale AI工厂需要同时兼顾向内扩展(Scale-up,也称柜内互联)、向外扩展(Scale-out,也称柜间互联)和横向扩展(Scale-across,也称数据中心互联)。当新一代集群规模达到51.2万张GPU的恐怖级别时,单单维持底层互联的光模块就吃掉30兆瓦的电力,以往铜缆互联到可拔插光模块均是瓶颈所在,光互联技术需要更快的演进,800G到1.6T、3.2T甚至XPO需要尽快提上日程。
英伟达亮出Photonics光子技术底牌
为了应对未来功耗过高和高密度封装难题的双重考验,Nvidia也全面透露了其在光子学领域的全栈布局,并将自身定位为“光互联未来技术的联合发明者”,而非光器件厂商的客户,可以说英伟达在OFC 2026上,直接亮出了与生态伙伴共同研发的NVIDIA Photonics光子技术底牌。
OFC展会Nvidia演讲 (图源:OFC 2026)
1.6T硅光CPO(光电共封)采用台积电最新的 CoWoS3D堆叠硅光引擎工艺制程,在面向以太网的Spectrum-X平台,与面向InfiniBand的Quantum-X平台一同使用,CPO将光引擎和交换芯片(ASIC)封装的距离更近、互联带宽更大,传输功耗进一步降低,在大规模部署时将会拥有巨大的优势。演讲中还特别提及了调制器的技术选择路径(可以参看往期千字长文《【光电共封CPO】从CPO到OIO的跨越,硅光微环为何如此重要?》),英伟达选择死磕微环调制器(MRM - Micro Ring Modulators)。
这里有必要聊聊为何坚决选MRM,而不是大家熟悉的传统马赫-曾德尔调制器(MZM)?一般来讲,MZM确实比较成熟,但是面对极其苛刻的算力密度时,MRM则展现出碾压级的优势,首先MRM可以采用硅光工艺,提及可以做到微米级(极其紧凑)并且能耗极低,最关键的是,MRM天然支持波分复用(WDM),后续拓展能力极强、带宽也扩展了数倍之多。Nvidia又是DWDM(密集波分复用)的忠实拥趸,其展示了利用8波长的DWDM微环谐振器,实现200G PAM4的单通道速率,更可怕的是功耗控制,包含激光器和主机SERDES在内,整体能耗被死死压制在了极优秀的3pj/bit 。
OFC展会Nvidia演讲 (图源:OFC 2026)
Nvidia也首次透露出业界担忧的MRM温度稳定性问题,通过混合信号与光子学团队的联合设计,配合复杂的驱动、调谐与控制算法,其MRM实现了在50℃的快速温度波动下的稳定锁定,无论是30度升到85度在回落至30度,MRM都能稳定保持控制回路信号,MRM的温敏这一行业痛点被工程优化彻底解决。
结语
从Blackwell到Rubin,再到演讲中所曝光的Feynman架构,Nvidia新架构预计将引入OIO光互连、1.6T的Spectrum-X网络和NVLink 6等全新技术,CPO不再是实验室的技术和商业化难得论文,更像是被每天可以节省410万美金宕机成本紧逼的唯一解。Nvidia想要实现吉瓦的AI工厂的野心,在一项又一项新技术落地时慢慢实现。下一个AI十年的入场券,就藏在CPO光电共封技术里。
文中插图为官方提供
参考:
《OFC展会Nvidia演讲 PPT》
305
