1. 痛点开头:算力堆得越多,卡在哪?
单颗芯片再猛,也是个孤狼。
真正决定系统性能天花板的,是这群“狼”能不能组队开黑。
这就是所谓的“互联墙”(Interconnect Wall)。翻译成人话就是:芯片之间连得爽不爽,比你芯片自己厉不厉害,更重要。
现在的局面是,搞互联的这帮人,已经卷出了新高度。什么PCIe、NVLink、CXL、UALink……各种协议满天飞,各家都说自己是“真·海王”,能同时伺候好一群芯片。
今天,咱们就来扒一扒。
2. 传统基石:PCIe的演进和天生瓶颈
PCIe是现在最通用的互联标准,这么多年一直是CPU和各种加速器之间通信的骨干。
但现在GPU算力和显存带宽涨得太快,PCIe已经有点跟不上了。
先给大家看一下PCIe这些年的带宽升级,变化非常直观:
| PCIe版本 | 单通道速率 (GT/s) | x16双向带宽 (GB/s) | 编码方式/信号技术 |
| PCIe 3.0 | 8 | 31.5 | 128b/130b (NRZ) |
| PCIe 4.0 | 16 | 63.0 | 128b/130b (NRZ) |
| PCIe 5.0 | 32 | 126.0 | 128b/130b (NRZ) |
| PCIe 6.0 | 64 | 252.0 | 1b/1b (PAM4 + FLIT) |
| PCIe 7.0 | 128 | 504.0 | 1b/1b (PAM4 + FLIT) |
PCIe 6.0其实已经做了大升级,用了PAM4四电平脉冲幅度调制,不用提高链路频率就能把带宽翻一倍,已经尽力了。
但问题出在架构设计上。PCIe用的是树形层次拓扑,还是非一致性的存储模型,优势是兼容性好通用性强,但多GPU协同的时候,跨芯片交换数据大多要绕CPU中转,或者靠软件管理DMA,不仅软件开销大,延迟也降不下去。
更关键的是,PCIe在硬件层面原生不支持缓存一致性。
什么意思?简单说就是不同芯片没法直接共享同一个内存地址空间,要同步数据就得程序员手动控制缓存刷新,不仅写代码变复杂,还白白浪费了很多计算周期。
这个瓶颈,在训练万亿参数大模型的时候尤其明显——频繁更新权重、同步梯度对带宽和一致性要求太高了,PCIe顶不住。
3. 私有标杆:NVIDIA NVLink的闭环优势
为了绕开PCIe的问题,NVIDIA做了自己的私有互联协议NVLink,现在是行业性能标杆。
NVLink的设计思路很直接:绕开PCIe的层级结构,直接给GPU之间、GPU和兼容CPU之间做点对点的直连通道。
从2016年推出到现在,基本每代带宽都翻一倍,升级路线很清晰:
| NVLink版本 | 对应架构 | 每GPU总带宽 (GB/s, 双向) | 最大扩展规模 |
| NVLink 1.0 | Pascal (P100) | 160 | 8 GPUs |
| NVLink 2.0 | Volta (V100) | 300 | 16 GPUs |
| NVLink 3.0 | Ampere (A100) | 600 | 16-32 GPUs |
| NVLink 4.0 | Hopper (H100) | 900 | 256 GPUs |
| NVLink 5.0 | Blackwell (B200) | 1,800 | 576 GPUs |
| NVLink 6.0 | Rubin | 3,600 | 576+ GPUs |
NVLink能做这么强,不只是物理层带宽高,配套的NVSwitch芯片是关键。NVSwitch相当于GPU之间的全连接交换机,服务器里所有GPU都能全速无阻塞互相通信。
现在Blackwell架构用第五代NVLink加第三代NVSwitch,能拼出576个GPU的超级计算集群,整个机架总带宽能到130TB/s,这个性能现在没人能比。
后来推出的NVLink-C2C还把这个优势扩展到了CPU和GPU之间,能做到900GB/s的超低延迟一致性连接,GPU能直接用CPU的系统内存,正好缓解了HBM显存容量不够的问题。
从软件层面看,NVLink底层直接支持硬件级的内存语义,包括直接读写和原子操作。开发者用CUDA编程的时候,访问别的GPU显存就像访问自己本地显存一样,效率提升非常明显。
但缺点也很明显:封闭生态带来厂商锁定,别的厂商用不了,所以整个行业都在找开放的替代方案。
4. 开放统一:CXL怎么对抗封闭生态?
为了打破NVIDIA的垄断,Intel牵头拉着AMD、ARM这些厂商搞了CXL开放标准,现在已经成了业界主流的开放方案。
CXL的设计很聪明,它直接复用现有的PCIe物理层和电气标准,只在上面重新做了三套专门针对低延迟一致性优化的协议栈,不用彻底推翻现有产业链就能升级。
CXL根据设备类型,分了三个协议子集,动态启用:
CXL.io:基于PCIe改的,用来做设备发现、初始化、配置,还有非一致性数据传输,是所有CXL设备都必须支持的基础。
CXL.cache:让加速器能用低延迟缓存主机的系统内存,适合做细粒度的指令级协作,SmartNIC和近内存计算设备用得最多。
CXL.mem:让主机CPU能用标准读写指令访问加速器自带的内存,是实现内存池化、内存分解的核心基础。
按支持的协议组合,CXL设备又分成三类:
Type 1一般是加速器或者SmartNIC,只用CXL.io和CXL.cache,大多没有本地大容量内存,靠访问主机内存工作。
Type 2是通用加速器,比如GPU、FPGA,三个协议全都支持,既能访问主机内存,也能让主机访问自己本地的HBM,能拼出完全对称的一致性空间。
Type 3是内存扩展器,只用CXL.io和CXL.mem,就是给系统额外加DRAM或者持久化内存,解决数据中心内存闲置、带宽不够的问题。
最新的CXL 3.1已经支持基于端口的路由和多层交换,能把互联范围从机架内扩展到整个数据中心,理论上能支持几千个节点共享同一个内存池。这种内存池化能力,现在被认为是能降低数据中心总体拥有成本的革命性技术。
5. 各家方案:不止NVLink和CXL,还有这些选择
除了上面两个最主流的,AMD、华为、Intel都有自己的方案,各有各的思路。
AMD Infinity Fabric
AMD给Instinct系列加速器做的Infinity Fabric,前身叫XGMI,思路和NVLink差不多,主打高点对点带宽,还能和自己的CPU架构深度集成。
现在的MI300X,每颗芯片带7条Infinity Fabric链路,每条能提供128GB/s的双向带宽,支持8颗GPU用环形或者网格拓扑互联。
而MI300A作为全球首款AI+HPC用的APU,单芯片封装里直接集成了Zen 4 CPU和CDNA 3 GPU,这些核心通过片内Infinity Fabric直接共享同一组HBM3显存,彻底省掉了CPU和GPU之间数据拷贝的延迟,FP64矩阵运算理论峰值能到122.6TFLOPS,性能非常强。
华为HCCS和下一代UB架构
华为升腾芯片用的是自研的HCCS缓存一致性系统做卡间互联,升腾910单颗芯片就有3条HCCS链路,总带宽最高能到90GB/s,用环形拓扑能把4颗或者8颗加速器拼成一个紧密协作的计算节点。
在2025年的Hot Chips大会上,华为公布了下一代互联技术:统一总线UB,目标是把CPU、NPU、内存、网络接口的协议统一,省掉传统协议转换带来的延迟。针对超大规模集群,还做了UB-Mesh拓扑,是一种分层的局部全连接网络。
这个架构专门利用了大模型训练里数据有局部性的特点,能做到比传统网络高100倍的带宽,还能通过非线性成本控制大幅降低互联开销。目标是拼出支持百万颗芯片协同的超级节点,还专门在光学链路上做了自动重试,解决光互联误码率高的问题。
6. 开放联盟:UALink要挑战NVLink垄断
2024年AMD、Intel、谷歌、微软这些巨头凑在一起搞了UALink联盟,推出了开放的Ultra Accelerator Link协议,就是冲着打破NVIDIA垄断来的。
UALink 1.0的目标就是做一个开放、高性能、低延迟的扩展互联标准,复用以太网的物理层,但重新设计了上层协议,支持加速器之间直接读写内存。
我们直接对比一下NVLink 5.0:
| 指标 | UALink 1.0 (2025) | NVLink 5.0 (Blackwell) |
| 每通道速率 | 200 GT/s | 约 224 Gbps |
| 单端口带宽 (x4) | 800 Gbps | 1.8 TB/s (每GPU总和) |
| 最大集群规模 | 1,024 节点 | 576 节点 |
| 往返延迟 | < 1 微秒 | 极低 (私有优化) |
| 生态开放度 | 完全开放标准 | 封闭私有 |
UALink 2.0已经开始规划网内计算技术,目的是减少加速器之间调度任务的控制消息,把更多带宽留给实际数据传输。
虽然量产进度比NVLink慢,但有整个行业背书,未来肯定是大规模AI集群的一个重要选项
8. 底层基础:先进封装和芯粒互联标准
现在芯粒技术越来越成熟,芯片互联已经不只是电路板上的事,已经延伸到封装内部了,封装技术本身就决定了物理层互联的密度和能效比。
现在主流先进封装主要两个路线:
| 技术 | 开发商 | 结构特点 | 相对成本 | 主要应用 |
| CoWoS-S | TSMC | 全尺寸硅中介层 (Silicon Interposer) | 1.0x | NVIDIA H100, AMD MI300 |
| CoWoS-L | TSMC | 有机基板 + 局部硅桥 (LSI Bridge) | 1.2x | NVIDIA Blackwell (超大封装) |
| EMIB | Intel | 嵌入式多芯片互联桥 | 0.7x - 0.9x | Intel Xeon, 加速器, ASIC |
台积电的CoWoS现在占市场主导,但产能不够,成本还高——硅中介层经常要占封装总成本的一半以上。Intel的EMIB只在需要的地方嵌硅桥,省硅料,成本能降30%到40%,散热和尺寸扩展性还更好,各有优势。
要让不同厂商的芯粒能拼在一起用,就得有通用的互联标准,所以Intel、AMD、NVIDIA、台积电、三星这些厂商一起搞了UCIe通用芯粒互联标准。
UCIe基于CXL和PCIe的协议层,但物理层做得非常精简,每比特能耗只有0.25到0.5pJ,比传统的PCIe这类封装外互联低一个数量级。
先进封装下,UCIe 1.0能做到1.35TB/s/mm²的带宽密度,后续的2.0、3.0版本已经把速率提到了48GT/s和64GT/s,还支持3D堆叠封装,以后AI芯片能在单封装里集成更多计算核心和HBM堆栈。
9. 趋势总结:互联已经变成核心战略资源
现在异构计算的互联方案,已经呈现出几个非常明确的趋势:
第一,硬件一致性是准入门槛。不管是开放的CXL还是私有的NVLink-C2C,要做深度融合的异构系统,硬件级缓存一致性已经是必须的,没有这个就做不了细粒度并行。
第二,以太网化和开放标准化是大方向。集群规模越来越大,要做到百万卡级别,用以太网物理层做低成本扩展已经挡不住了,UALink这类开放标准起来之后,专有协议的市场空间会越来越受挑战。
第三,光互联很快就要落地。铜缆超过2到4米信号衰减就扛不住了,硅光子和共封装光学已经从实验室走向数据中心,现在华为等厂商已经开始在协议层做文章,解决光模块误码率高的问题。
第四,封装本身就是网络。UCIe正在把整个封装变成一个低延迟高速网络,大芯片能通过芯粒拼接突破制造极限,以后会越来越普及。
总的来说,现在异构芯片的互联早就不是单纯的接插件了,已经变成整个系统架构里最重要的战略资源。
选什么互联方案,不只是看带宽数字,还要看软件生态成熟度、集群可扩展性,还有长期的总体拥有成本。
未来的计算系统,不会再有明确的处理器和存储器的边界,最后就是一张用高速低功耗互联织出来的巨大计算网络。
对于想做异构算力的团队来说,早点摸清楚不同互联方案的优缺点,选对路线比单纯堆算力重要得多。
海王的终极形态,是让你没得选。
写了这么多,划个重点:
PCIe:公交车,哪都能去,但慢。适合当“备用方案”和“控制通道”。
NVLink:私人飞机,巨快,但贵且封闭。老黄的护城河。
CXL:共享单车+月老,想撮合所有芯片搞内存池化。理想很大,但受限于物理层。
UALink:巨头们组队干NVLink的产物。纸面很强,等落地。
UCIe:封装内的胶水,让芯粒像乐高一样拼。未来所有超大芯片的标配。
光互联:终极解决方案。等成本降下来,铜线就可以退休了。
趋势也很明显:一致性、以太网化、标准化、光进铜退。
未来的计算系统,不会再是“CPU在这里,GPU在那里,内存在那一边”。而是一个由高速互联织成的巨大网络,计算、存储、通信的边界全部模糊掉。
从“计算为王”,到“互联为王”。
时代变了。
388