• 正文
  • 相关推荐
申请入驻 产业图谱

光通信,为什么成了AI算力的“生命线”?

2小时前
121
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

电信号的瓶颈、光的物理优势、大模型如何倒逼光互连,以及你手机里的每一次AI对话,背后都藏着一条光路。

你有没有想过,当你在AI大模型里输入一个问题,点击发送,到屏幕上弹出答案,这短短一两秒里,数据跑了多远?

答案是:可能跑了几百公里。

你的问题被封装成网络包,从手机通过Wi-Fi或5G传到运营商骨干网,一路狂奔到云数据中心的GPU集群。集群里成千上万颗芯片协同计算,生成结果,再原路返回。这条“数据长征”中,真正承载信息的,不是铜线,不是同轴电缆,而是比头发丝还细的玻璃丝——光纤

为什么非用光不可?为什么电信号不行?

一、电的“天花板”:传不远、传不快、传不稳

在数据中心内部,芯片之间、服务器之间、机柜之间需要交换海量数据。早期短距离互联用铜缆(DAC,直连铜缆)就行,但随着速率不断提升,电信号的物理瓶颈越来越明显。

衰减问题:电信号在PCB板或铜缆中传输时,电阻趋肤效应会不断消耗信号能量。速率越高,频率越高,衰减越剧烈。10Gbps以上信号,在普通PCB上走几十厘米就需要中继放大;到了100Gbps、200Gbps,铜缆的有效传输距离被压缩到几米以内。

功耗问题:为了对抗衰减,需要用更强的驱动器和更复杂的均衡电路(如DSP),这些电路本身消耗大量功耗。高速SerDes(串行解串器)在112Gbps速率下,单通道功耗可轻松突破1W,交换机面板上几十个通道加起来,发热量惊人。

电磁干扰高频电信号会像天线一样向外辐射噪声,互相串扰,信号完整性急剧恶化。为了屏蔽干扰,铜缆必须做得又粗又重,布线极其困难。

简单说,电信号在“高带宽 × 长距离”这个二维坐标系里,只能占据短距、低速那个角落。一旦速率突破100Gbps、距离超过数米,电就“喊不动”了。

二、光的“降维打击”:低损耗、抗干扰、高带宽

光纤中的光信号,工作机理完全不同。

全反射原理:光纤由芯层(高折射率,掺锗的SiO₂)和包层(低折射率,纯SiO₂石英玻璃)构成。光进入芯层后,在芯包界面发生全反射——入射光全部反射回芯层,几乎没有能量泄露。这就好比光在一条镜面管道里反复弹射前进,损耗极低。

极低衰减:石英光纤在1550nm窗口的典型损耗只有0.2dB/km。什么概念?一公里只衰减4.5%,99%以上的光功率能完整到达。相比之下,同速率电信号在铜缆上走100米就几乎不可识别。

巨大带宽:光纤的工作带宽在数十THz量级,单根光纤通过波分复用(WDM)可同时传输上百个波长,单通道200Gbps、400Gbps正在商用,实验室已突破单纤Pbps级传输。

抗干扰强:光信号不受电磁干扰,也不对外辐射,不同光纤之间天然隔离,布线极其灵活。

所以,光解决了三个核心诉求——传得远、传得快、传得稳

三、AI大模型,把光通信逼上了“刚需”位置

如果只是普通互联网应用,电信号勉强还能凑合。但AI大模型的崛起,彻底打破了平衡。

三大矛盾,我们展开讲讲:

矛盾1:HBM容量远远不够

一个千亿参数的大模型,光模型权重就占据几百GB存储空间,加上训练过程中的梯度、优化器状态、激活值,总内存需求轻松突破1TB。而单颗GPU的HBM(高带宽内存)通常只有80GB(如H100)或141GB(如MI300X)。哪怕是最顶级的GPU,也装不下整个模型和数据集。

所以,训练时必须频繁从外部存储(NVMe SSD、CPU内存)或其他GPU节点调入/调出数据。这些数据一旦离开芯片内部总线,就必须通过网络传输——而网络传输的物理层,正是光模块

矛盾2:并行训练需要芯片间频繁同步

大模型训练不是单卡能完成的,必须把模型切分到成千上万颗GPU组成的集群上并行训练。典型的分布式训练(如数据并行、模型并行、流水线并行)中,每张卡每轮迭代都要交换梯度、激活值等中间结果,进行全局同步。

这些交换在芯片内部通过HBM和NVLink(NVIDIA的片间高速互连)完成,带宽可达900GB/s以上。但一旦数据要发给另一个机架、另一台服务器里的GPU,就必须离开芯片,走交换机、走光模块、走光纤——整个过程全靠光互连支撑。

矛盾3:物理距离与带宽的严重不匹配

数据中心内部,同一个机柜里的服务器距离几米,不同机柜间可能几十米,不同房间可能上百米。电信号铜缆(DAC)最多支撑3-5米的可靠传输,超过这个距离就严重失真。而AI集群往往横跨多个机柜、多个机房,铜缆根本无能为力。

此外,如果外部数据供应带宽跟不上计算核心的需求,再强的GPU也得“饿肚子”——利用率大幅下降。光互连的作用,就是确保数据“粮道”永远畅通。

HBM解决了“计算核心与内存墙”的内部矛盾,而光模块/光引擎解决了“芯片与外部世界”的外部矛盾。两者缺一不可,共同支撑起AI算力

四、你手机里的AI,靠的是远方的光

像DeepSeek、ChatGPT这样的AI应用,工作模式是:

模型训练:在云数据中心,用成千上万张NVIDIA H800/A800/H100或华为昇腾等AI芯片组成超大规模集群,在海量数据上训练数月,耗电巨大。这一步绝对不可能在手机或普通电脑上完成。

模型部署与推理:训练好的模型被部署在云端服务器的GPU或专用推理芯片(如NVIDIA L4、华为昇腾)上。当你打开App提问时,App本身不包含大模型——它只有一个交互界面和网络通信代码。

云端交互:App把你的语音或文字打包成网络请求,通过API调用发送到云端服务器。服务器上的GPU集群运行模型推理,生成答案,再把结果通过光纤网络传回你的手机。

整个过程,你的问题变成电信号,电信号变成光信号,在光纤里跑几百公里,到GPU算完,再变成光跑回来,最后变成文字显示在屏幕上。你感觉不到延迟,但光已经奔波了数千公里。

这就是光通信在AI时代的价值——它不是锦上添花,而是生存刚需

结尾预告

看完应用场景,相信大家已经明白光通信的产业价值。但光通信的核心载体 —— 光模块,如今也在经历技术迭代:从传统分立器件光模块,到集成度更高的硅光模块,技术路线正在发生巨变。 下一篇,我们将深入拆解传统光模块与硅光模块的技术差异、优劣势以及成本对比,带你看懂当下主流的两大技术路线。

屹立芯创-ELEADTECH

屹立芯创-ELEADTECH

作为半导体行业先进封装领域的国产设备厂商,公司产品专精于先进封装制程气泡问题的解决,依托热流和气压两大核心技术,持续研发以多领域除泡系统(De-Void System)和晶圆级真空贴压膜系统(Wafer Vacuum Lamination System)为核心的两大产品系统与应用体系,提供多领域工艺制程中的气泡和压膜的整体解决方案。目前公司拥有百余项国内外专利,拥有千余项制程数据支撑。

作为半导体行业先进封装领域的国产设备厂商,公司产品专精于先进封装制程气泡问题的解决,依托热流和气压两大核心技术,持续研发以多领域除泡系统(De-Void System)和晶圆级真空贴压膜系统(Wafer Vacuum Lamination System)为核心的两大产品系统与应用体系,提供多领域工艺制程中的气泡和压膜的整体解决方案。目前公司拥有百余项国内外专利,拥有千余项制程数据支撑。 收起

查看更多

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录

作为半导体行业先进封装领域的国产设备厂商,公司产品专精于先进封装制程气泡问题的解决,依托热流和气压两大核心技术,持续研发以多领域除泡系统(De-Void System)和晶圆级真空贴压膜系统(Wafer Vacuum Lamination System)为核心的两大产品系统与应用体系,提供多领域工艺制程中的气泡和压膜的整体解决方案。目前公司拥有百余项国内外专利,拥有千余项制程数据支撑。

微信公众号