• 正文
  • 相关推荐
申请入驻 产业图谱

英伟达在拼算力,但数据中心真正的瓶颈没人提?

06/15 16:39
320
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

很多人聊AI算力,都在聊GPU有多强、HBM有多大。但真到了数据中心里面,问题往往没那么浪漫。

英伟达博通最近都在推CPO——共封装光学。简单说,就是把原来插在交换机面板上的光模块,直接做到芯片封装里面去。光引擎和ASIC芯片贴在同一块基板上,光电转换的距离从几十厘米缩短到几毫米。

这么做的好处很直观:功耗降3.5倍,带宽能从51.2Tbps推到102.4Tbps甚至更高。业内基本共识是,下一代AI数据中心想迈过102.4Tbps这道坎,CPO绕不开。

但代价也很真实。信号完整性、散热、封装工艺,每一块拎出来都是硬骨头。

而其中容易被忽略的,是时钟。

CPO把光路和电路压到同一个封装里,光引擎和交换芯片共享同一个时钟域。以前光模块可插拔,各自的时钟系统相对独立,jitter容限比较宽松。现在光电转换的距离压到毫米级,电信号和光信号的时序耦合变得极其紧密。任何相位噪声只要出现,就会被直接放大到光信号上。

以前光模块和芯片是“分居”,时钟各管各的,作息乱一点无所谓;现在“同居”了,两个人的节拍必须完全对齐,差一纳秒都会出问题。

这个变化对晶振的要求,是质变级的。

传统光模块用单端CMOS晶振就能搞定,频率稳定度±50ppm,抖动在皮秒级都能接受。CPO场景下必须切到差分输出——LVDS、HCSL或者LVPECL——来抑制共模噪声。抖动要从皮秒压到飞秒级,频率稳定度得做到±10ppm甚至±5ppm以内。

封装也得跟着缩,CPO基板面积本来就紧张,晶振不能占太多地方。3225是起步线,有的方案已经在评估2520甚至2016封装。

但这些还不是最难的,真正磨人的是量产一致性。

CPO不是实验室搭个demo就完事了,是要进英伟达DGX、进超大规模数据中心的。一颗晶振从-40℃到85℃全温区跳变,频偏一旦超标,整个交换端口的误码率就直接恶化。这不是换一颗料能解决的问题——要的是批次稳定性、老化特性、温度补偿算法全链路扛得住。

做光模块的人心里清楚,800G时代单模块已经要配1到2颗156.25MHz差分晶振。到CPO时代,一个交换机芯片可能集成8到16个光引擎,时钟需求量翻倍。但基板面积就那么大,留给时钟器件的空间反而更紧了。

所以CPO的瓶颈不只在光,也不只在电,更在时序。

能同时满足低抖动、小封装、宽温区、高一致性的供应商,其实没那么多。高速通信时钟这块,像SJK晶科鑫这类做差分晶体振荡器的厂商,150MHz和156.25MHz方案在很多光模块和交换机项目上已经跑相当长时间,客户真正在意的是稳定性和量产一致性——这两样东西没法靠PPT证明,得靠出货量和大规模部署的口碑积累。

英伟达说2025年要推CPO交换机,博通已经在给谷歌和Meta送样。产业链上游的光芯片、电芯片、封装基座都在抢跑。但如果时钟这块跟不上,整个CPO就是空中楼阁。

材料卡脖子是产业链上游的事,但时钟不稳,是每一台设备、每一个端口的事。

SJK晶科鑫

SJK晶科鑫

始于1989年,独有品牌SJK,30多年晶振研发生产销售经验,专业晶振工厂

始于1989年,独有品牌SJK,30多年晶振研发生产销售经验,专业晶振工厂收起

查看更多

相关推荐