PCIe、NVLink、CXL……谁才是芯片互联界的“真·海王”？

1. 痛点开头：算力堆得越多，卡在哪？

单颗芯片再猛，也是个孤狼。

真正决定系统性能天花板的，是这群“狼”能不能组队开黑。

这就是所谓的“互联墙”（Interconnect Wall）。翻译成人话就是：芯片之间连得爽不爽，比你芯片自己厉不厉害，更重要。

现在的局面是，搞互联的这帮人，已经卷出了新高度。什么PCIe、NVLink、CXL、UALink……各种协议满天飞，各家都说自己是“真·海王”，能同时伺候好一群芯片。

今天，咱们就来扒一扒。

2. 传统基石：PCIe的演进和天生瓶颈

PCIe是现在最通用的互联标准，这么多年一直是CPU和各种加速器之间通信的骨干。

但现在GPU算力和显存带宽涨得太快，PCIe已经有点跟不上了。

先给大家看一下PCIe这些年的带宽升级，变化非常直观：

PCIe版本	单通道速率 (GT/s)	x16双向带宽 (GB/s)	编码方式/信号技术
PCIe 3.0	8	31.5	128b/130b (NRZ)
PCIe 4.0	16	63.0	128b/130b (NRZ)
PCIe 5.0	32	126.0	128b/130b (NRZ)
PCIe 6.0	64	252.0	1b/1b (PAM4 + FLIT)
PCIe 7.0	128	504.0	1b/1b (PAM4 + FLIT)

PCIe 6.0其实已经做了大升级，用了PAM4四电平脉冲幅度调制，不用提高链路频率就能把带宽翻一倍，已经尽力了。

但问题出在架构设计上。PCIe用的是树形层次拓扑，还是非一致性的存储模型，优势是兼容性好通用性强，但多GPU协同的时候，跨芯片交换数据大多要绕CPU中转，或者靠软件管理DMA，不仅软件开销大，延迟也降不下去。

更关键的是，PCIe在硬件层面原生不支持缓存一致性。

什么意思？简单说就是不同芯片没法直接共享同一个内存地址空间，要同步数据就得程序员手动控制缓存刷新，不仅写代码变复杂，还白白浪费了很多计算周期。

这个瓶颈，在训练万亿参数大模型的时候尤其明显——频繁更新权重、同步梯度对带宽和一致性要求太高了，PCIe顶不住。

3. 私有标杆：NVIDIA NVLink的闭环优势

为了绕开PCIe的问题，NVIDIA做了自己的私有互联协议NVLink，现在是行业性能标杆。

NVLink的设计思路很直接：绕开PCIe的层级结构，直接给GPU之间、GPU和兼容CPU之间做点对点的直连通道。

从2016年推出到现在，基本每代带宽都翻一倍，升级路线很清晰：

NVLink版本	对应架构	每GPU总带宽 (GB/s, 双向)	最大扩展规模
NVLink 1.0	Pascal (P100)	160	8 GPUs
NVLink 2.0	Volta (V100)	300	16 GPUs
NVLink 3.0	Ampere (A100)	600	16-32 GPUs
NVLink 4.0	Hopper (H100)	900	256 GPUs
NVLink 5.0	Blackwell (B200)	1,800	576 GPUs
NVLink 6.0	Rubin	3,600	576+ GPUs

NVLink能做这么强，不只是物理层带宽高，配套的NVSwitch芯片是关键。NVSwitch相当于GPU之间的全连接交换机，服务器里所有GPU都能全速无阻塞互相通信。

现在Blackwell架构用第五代NVLink加第三代NVSwitch，能拼出576个GPU的超级计算集群，整个机架总带宽能到130TB/s，这个性能现在没人能比。

后来推出的NVLink-C2C还把这个优势扩展到了CPU和GPU之间，能做到900GB/s的超低延迟一致性连接，GPU能直接用CPU的系统内存，正好缓解了HBM显存容量不够的问题。

从软件层面看，NVLink底层直接支持硬件级的内存语义，包括直接读写和原子操作。开发者用CUDA编程的时候，访问别的GPU显存就像访问自己本地显存一样，效率提升非常明显。

但缺点也很明显：封闭生态带来厂商锁定，别的厂商用不了，所以整个行业都在找开放的替代方案。

4. 开放统一：CXL怎么对抗封闭生态？

为了打破NVIDIA的垄断，Intel牵头拉着AMD、ARM这些厂商搞了CXL开放标准，现在已经成了业界主流的开放方案。

CXL的设计很聪明，它直接复用现有的PCIe物理层和电气标准，只在上面重新做了三套专门针对低延迟一致性优化的协议栈，不用彻底推翻现有产业链就能升级。

CXL根据设备类型，分了三个协议子集，动态启用：

CXL.io：基于PCIe改的，用来做设备发现、初始化、配置，还有非一致性数据传输，是所有CXL设备都必须支持的基础。

CXL.cache：让加速器能用低延迟缓存主机的系统内存，适合做细粒度的指令级协作，SmartNIC和近内存计算设备用得最多。

CXL.mem：让主机CPU能用标准读写指令访问加速器自带的内存，是实现内存池化、内存分解的核心基础。

按支持的协议组合，CXL设备又分成三类：

Type 1一般是加速器或者SmartNIC，只用CXL.io和CXL.cache，大多没有本地大容量内存，靠访问主机内存工作。

Type 2是通用加速器，比如GPU、FPGA，三个协议全都支持，既能访问主机内存，也能让主机访问自己本地的HBM，能拼出完全对称的一致性空间。

Type 3是内存扩展器，只用CXL.io和CXL.mem，就是给系统额外加DRAM或者持久化内存，解决数据中心内存闲置、带宽不够的问题。

最新的CXL 3.1已经支持基于端口的路由和多层交换，能把互联范围从机架内扩展到整个数据中心，理论上能支持几千个节点共享同一个内存池。这种内存池化能力，现在被认为是能降低数据中心总体拥有成本的革命性技术。

5. 各家方案：不止NVLink和CXL，还有这些选择

除了上面两个最主流的，AMD、华为、Intel都有自己的方案，各有各的思路。

AMD Infinity Fabric

AMD给Instinct系列加速器做的Infinity Fabric，前身叫XGMI，思路和NVLink差不多，主打高点对点带宽，还能和自己的CPU架构深度集成。

现在的MI300X，每颗芯片带7条Infinity Fabric链路，每条能提供128GB/s的双向带宽，支持8颗GPU用环形或者网格拓扑互联。

而MI300A作为全球首款AI+HPC用的APU，单芯片封装里直接集成了Zen 4 CPU和CDNA 3 GPU，这些核心通过片内Infinity Fabric直接共享同一组HBM3显存，彻底省掉了CPU和GPU之间数据拷贝的延迟，FP64矩阵运算理论峰值能到122.6TFLOPS，性能非常强。

华为HCCS和下一代UB架构

华为升腾芯片用的是自研的HCCS缓存一致性系统做卡间互联，升腾910单颗芯片就有3条HCCS链路，总带宽最高能到90GB/s，用环形拓扑能把4颗或者8颗加速器拼成一个紧密协作的计算节点。

在2025年的Hot Chips大会上，华为公布了下一代互联技术：统一总线UB，目标是把CPU、NPU、内存、网络接口的协议统一，省掉传统协议转换带来的延迟。针对超大规模集群，还做了UB-Mesh拓扑，是一种分层的局部全连接网络。

这个架构专门利用了大模型训练里数据有局部性的特点，能做到比传统网络高100倍的带宽，还能通过非线性成本控制大幅降低互联开销。目标是拼出支持百万颗芯片协同的超级节点，还专门在光学链路上做了自动重试，解决光互联误码率高的问题。

6. 开放联盟：UALink要挑战NVLink垄断

2024年AMD、Intel、谷歌、微软这些巨头凑在一起搞了UALink联盟，推出了开放的Ultra Accelerator Link协议，就是冲着打破NVIDIA垄断来的。

UALink 1.0的目标就是做一个开放、高性能、低延迟的扩展互联标准，复用以太网的物理层，但重新设计了上层协议，支持加速器之间直接读写内存。

我们直接对比一下NVLink 5.0：

指标	UALink 1.0 (2025)	NVLink 5.0 (Blackwell)
每通道速率	200 GT/s	约 224 Gbps
单端口带宽 (x4)	800 Gbps	1.8 TB/s (每GPU总和)
最大集群规模	1,024 节点	576 节点
往返延迟	< 1 微秒	极低 (私有优化)
生态开放度	完全开放标准	封闭私有

UALink 2.0已经开始规划网内计算技术，目的是减少加速器之间调度任务的控制消息，把更多带宽留给实际数据传输。

虽然量产进度比NVLink慢，但有整个行业背书，未来肯定是大规模AI集群的一个重要选项

8. 底层基础：先进封装和芯粒互联标准

现在芯粒技术越来越成熟，芯片互联已经不只是电路板上的事，已经延伸到封装内部了，封装技术本身就决定了物理层互联的密度和能效比。

现在主流先进封装主要两个路线：

技术	开发商	结构特点	相对成本	主要应用
CoWoS-S	TSMC	全尺寸硅中介层 (Silicon Interposer)	1.0x	NVIDIA H100, AMD MI300
CoWoS-L	TSMC	有机基板 + 局部硅桥 (LSI Bridge)	1.2x	NVIDIA Blackwell (超大封装)
EMIB	Intel	嵌入式多芯片互联桥	0.7x - 0.9x	Intel Xeon, 加速器, ASIC

台积电的CoWoS现在占市场主导，但产能不够，成本还高——硅中介层经常要占封装总成本的一半以上。Intel的EMIB只在需要的地方嵌硅桥，省硅料，成本能降30%到40%，散热和尺寸扩展性还更好，各有优势。

要让不同厂商的芯粒能拼在一起用，就得有通用的互联标准，所以Intel、AMD、NVIDIA、台积电、三星这些厂商一起搞了UCIe通用芯粒互联标准。

UCIe基于CXL和PCIe的协议层，但物理层做得非常精简，每比特能耗只有0.25到0.5pJ，比传统的PCIe这类封装外互联低一个数量级。

先进封装下，UCIe 1.0能做到1.35TB/s/mm²的带宽密度，后续的2.0、3.0版本已经把速率提到了48GT/s和64GT/s，还支持3D堆叠封装，以后AI芯片能在单封装里集成更多计算核心和HBM堆栈。

9. 趋势总结：互联已经变成核心战略资源

现在异构计算的互联方案，已经呈现出几个非常明确的趋势：

第一，硬件一致性是准入门槛。不管是开放的CXL还是私有的NVLink-C2C，要做深度融合的异构系统，硬件级缓存一致性已经是必须的，没有这个就做不了细粒度并行。

第二，以太网化和开放标准化是大方向。集群规模越来越大，要做到百万卡级别，用以太网物理层做低成本扩展已经挡不住了，UALink这类开放标准起来之后，专有协议的市场空间会越来越受挑战。

第三，光互联很快就要落地。铜缆超过2到4米信号衰减就扛不住了，硅光子和共封装光学已经从实验室走向数据中心，现在华为等厂商已经开始在协议层做文章，解决光模块误码率高的问题。

第四，封装本身就是网络。UCIe正在把整个封装变成一个低延迟高速网络，大芯片能通过芯粒拼接突破制造极限，以后会越来越普及。

总的来说，现在异构芯片的互联早就不是单纯的接插件了，已经变成整个系统架构里最重要的战略资源。

选什么互联方案，不只是看带宽数字，还要看软件生态成熟度、集群可扩展性，还有长期的总体拥有成本。

未来的计算系统，不会再有明确的处理器和存储器的边界，最后就是一张用高速低功耗互联织出来的巨大计算网络。

对于想做异构算力的团队来说，早点摸清楚不同互联方案的优缺点，选对路线比单纯堆算力重要得多。

海王的终极形态，是让你没得选。

写了这么多，划个重点：

PCIe：公交车，哪都能去，但慢。适合当“备用方案”和“控制通道”。

NVLink：私人飞机，巨快，但贵且封闭。老黄的护城河。

CXL：共享单车+月老，想撮合所有芯片搞内存池化。理想很大，但受限于物理层。

UALink：巨头们组队干NVLink的产物。纸面很强，等落地。

UCIe：封装内的胶水，让芯粒像乐高一样拼。未来所有超大芯片的标配。

光互联：终极解决方案。等成本降下来，铜线就可以退休了。

趋势也很明显：一致性、以太网化、标准化、光进铜退。

未来的计算系统，不会再是“CPU在这里，GPU在那里，内存在那一边”。而是一个由高速互联织成的巨大网络，计算、存储、通信的边界全部模糊掉。

从“计算为王”，到“互联为王”。

时代变了。