• 正文
  • 相关推荐
申请入驻 产业图谱

PCIe、NVLink、CXL……谁才是芯片互联界的“真·海王”?

21小时前
388
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

1. 痛点开头:算力堆得越多,卡在哪?

单颗芯片再猛,也是个孤狼。

真正决定系统性能天花板的,是这群“狼”能不能组队开黑。

这就是所谓的“互联墙”(Interconnect Wall)。翻译成人话就是:芯片之间连得爽不爽,比你芯片自己厉不厉害,更重要。

现在的局面是,搞互联的这帮人,已经卷出了新高度。什么PCIe、NVLink、CXL、UALink……各种协议满天飞,各家都说自己是“真·海王”,能同时伺候好一群芯片。

今天,咱们就来扒一扒。

2. 传统基石:PCIe的演进和天生瓶颈

PCIe是现在最通用的互联标准,这么多年一直是CPU和各种加速器之间通信的骨干。

但现在GPU算力和显存带宽涨得太快,PCIe已经有点跟不上了。

先给大家看一下PCIe这些年的带宽升级,变化非常直观:

PCIe版本 单通道速率 (GT/s) x16双向带宽 (GB/s) 编码方式/信号技术
PCIe 3.0 8 31.5 128b/130b (NRZ)
PCIe 4.0 16 63.0 128b/130b (NRZ)
PCIe 5.0 32 126.0 128b/130b (NRZ)
PCIe 6.0 64 252.0 1b/1b (PAM4 + FLIT)
PCIe 7.0 128 504.0 1b/1b (PAM4 + FLIT)

PCIe 6.0其实已经做了大升级,用了PAM4四电平脉冲幅度调制,不用提高链路频率就能把带宽翻一倍,已经尽力了。

但问题出在架构设计上。PCIe用的是树形层次拓扑,还是非一致性的存储模型,优势是兼容性好通用性强,但多GPU协同的时候,跨芯片交换数据大多要绕CPU中转,或者靠软件管理DMA,不仅软件开销大,延迟也降不下去。

更关键的是,PCIe在硬件层面原生不支持缓存一致性。

什么意思?简单说就是不同芯片没法直接共享同一个内存地址空间,要同步数据就得程序员手动控制缓存刷新,不仅写代码变复杂,还白白浪费了很多计算周期。

这个瓶颈,在训练万亿参数大模型的时候尤其明显——频繁更新权重、同步梯度对带宽和一致性要求太高了,PCIe顶不住。

3. 私有标杆:NVIDIA NVLink的闭环优势

为了绕开PCIe的问题,NVIDIA做了自己的私有互联协议NVLink,现在是行业性能标杆。

NVLink的设计思路很直接:绕开PCIe的层级结构,直接给GPU之间、GPU和兼容CPU之间做点对点的直连通道。

从2016年推出到现在,基本每代带宽都翻一倍,升级路线很清晰:

NVLink版本 对应架构 每GPU总带宽 (GB/s, 双向) 最大扩展规模
NVLink 1.0 Pascal (P100) 160 8 GPUs
NVLink 2.0 Volta (V100) 300 16 GPUs
NVLink 3.0 Ampere (A100) 600 16-32 GPUs
NVLink 4.0 Hopper (H100) 900 256 GPUs
NVLink 5.0 Blackwell (B200) 1,800 576 GPUs
NVLink 6.0 Rubin 3,600 576+ GPUs

NVLink能做这么强,不只是物理层带宽高,配套的NVSwitch芯片是关键。NVSwitch相当于GPU之间的全连接交换机服务器里所有GPU都能全速无阻塞互相通信。

现在Blackwell架构用第五代NVLink加第三代NVSwitch,能拼出576个GPU的超级计算集群,整个机架总带宽能到130TB/s,这个性能现在没人能比。

后来推出的NVLink-C2C还把这个优势扩展到了CPU和GPU之间,能做到900GB/s的超低延迟一致性连接,GPU能直接用CPU的系统内存,正好缓解了HBM显存容量不够的问题。

从软件层面看,NVLink底层直接支持硬件级的内存语义,包括直接读写和原子操作。开发者用CUDA编程的时候,访问别的GPU显存就像访问自己本地显存一样,效率提升非常明显。

但缺点也很明显:封闭生态带来厂商锁定,别的厂商用不了,所以整个行业都在找开放的替代方案。

4. 开放统一:CXL怎么对抗封闭生态?

为了打破NVIDIA的垄断,Intel牵头拉着AMD、ARM这些厂商搞了CXL开放标准,现在已经成了业界主流的开放方案。

CXL的设计很聪明,它直接复用现有的PCIe物理层和电气标准,只在上面重新做了三套专门针对低延迟一致性优化的协议栈,不用彻底推翻现有产业链就能升级。

CXL根据设备类型,分了三个协议子集,动态启用:

CXL.io:基于PCIe改的,用来做设备发现、初始化、配置,还有非一致性数据传输,是所有CXL设备都必须支持的基础。

CXL.cache:让加速器能用低延迟缓存主机的系统内存,适合做细粒度的指令级协作,SmartNIC和近内存计算设备用得最多。

CXL.mem:让主机CPU能用标准读写指令访问加速器自带的内存,是实现内存池化、内存分解的核心基础。

按支持的协议组合,CXL设备又分成三类:

Type 1一般是加速器或者SmartNIC,只用CXL.io和CXL.cache,大多没有本地大容量内存,靠访问主机内存工作。

Type 2是通用加速器,比如GPU、FPGA,三个协议全都支持,既能访问主机内存,也能让主机访问自己本地的HBM,能拼出完全对称的一致性空间。

Type 3是内存扩展器,只用CXL.io和CXL.mem,就是给系统额外加DRAM或者持久化内存,解决数据中心内存闲置、带宽不够的问题。

最新的CXL 3.1已经支持基于端口的路由和多层交换,能把互联范围从机架内扩展到整个数据中心,理论上能支持几千个节点共享同一个内存池。这种内存池化能力,现在被认为是能降低数据中心总体拥有成本的革命性技术。

5. 各家方案:不止NVLink和CXL,还有这些选择

除了上面两个最主流的,AMD、华为、Intel都有自己的方案,各有各的思路。

AMD Infinity Fabric

AMD给Instinct系列加速器做的Infinity Fabric,前身叫XGMI,思路和NVLink差不多,主打高点对点带宽,还能和自己的CPU架构深度集成。

现在的MI300X,每颗芯片带7条Infinity Fabric链路,每条能提供128GB/s的双向带宽,支持8颗GPU用环形或者网格拓扑互联。

而MI300A作为全球首款AI+HPC用的APU,单芯片封装里直接集成了Zen 4 CPU和CDNA 3 GPU,这些核心通过片内Infinity Fabric直接共享同一组HBM3显存,彻底省掉了CPU和GPU之间数据拷贝的延迟,FP64矩阵运算理论峰值能到122.6TFLOPS,性能非常强。

华为HCCS和下一代UB架构

华为升腾芯片用的是自研的HCCS缓存一致性系统做卡间互联,升腾910单颗芯片就有3条HCCS链路,总带宽最高能到90GB/s,用环形拓扑能把4颗或者8颗加速器拼成一个紧密协作的计算节点。

在2025年的Hot Chips大会上,华为公布了下一代互联技术:统一总线UB,目标是把CPU、NPU、内存、网络接口的协议统一,省掉传统协议转换带来的延迟。针对超大规模集群,还做了UB-Mesh拓扑,是一种分层的局部全连接网络。

这个架构专门利用了大模型训练里数据有局部性的特点,能做到比传统网络高100倍的带宽,还能通过非线性成本控制大幅降低互联开销。目标是拼出支持百万颗芯片协同的超级节点,还专门在光学链路上做了自动重试,解决光互联误码率高的问题。

6. 开放联盟:UALink要挑战NVLink垄断

2024年AMD、Intel、谷歌、微软这些巨头凑在一起搞了UALink联盟,推出了开放的Ultra Accelerator Link协议,就是冲着打破NVIDIA垄断来的。

UALink 1.0的目标就是做一个开放、高性能、低延迟的扩展互联标准,复用以太网的物理层,但重新设计了上层协议,支持加速器之间直接读写内存。

我们直接对比一下NVLink 5.0:

指标 UALink 1.0 (2025) NVLink 5.0 (Blackwell)
每通道速率 200 GT/s 约 224 Gbps
单端口带宽 (x4) 800 Gbps 1.8 TB/s (每GPU总和)
最大集群规模 1,024 节点 576 节点
往返延迟 < 1 微秒 极低 (私有优化)
生态开放度 完全开放标准 封闭私有

UALink 2.0已经开始规划网内计算技术,目的是减少加速器之间调度任务的控制消息,把更多带宽留给实际数据传输。

虽然量产进度比NVLink慢,但有整个行业背书,未来肯定是大规模AI集群的一个重要选项

8. 底层基础:先进封装和芯粒互联标准

现在芯粒技术越来越成熟,芯片互联已经不只是电路板上的事,已经延伸到封装内部了,封装技术本身就决定了物理层互联的密度和能效比。

现在主流先进封装主要两个路线:

技术 开发商 结构特点 相对成本 主要应用
CoWoS-S TSMC 全尺寸硅中介层 (Silicon Interposer) 1.0x NVIDIA H100, AMD MI300
CoWoS-L TSMC 有机基板 + 局部硅桥 (LSI Bridge) 1.2x NVIDIA Blackwell (超大封装)
EMIB Intel 嵌入式多芯片互联桥 0.7x - 0.9x Intel Xeon, 加速器, ASIC

台积电的CoWoS现在占市场主导,但产能不够,成本还高——硅中介层经常要占封装总成本的一半以上。Intel的EMIB只在需要的地方嵌硅桥,省硅料,成本能降30%到40%,散热和尺寸扩展性还更好,各有优势。

要让不同厂商的芯粒能拼在一起用,就得有通用的互联标准,所以Intel、AMD、NVIDIA、台积电、三星这些厂商一起搞了UCIe通用芯粒互联标准。

UCIe基于CXL和PCIe的协议层,但物理层做得非常精简,每比特能耗只有0.25到0.5pJ,比传统的PCIe这类封装外互联低一个数量级。

先进封装下,UCIe 1.0能做到1.35TB/s/mm²的带宽密度,后续的2.0、3.0版本已经把速率提到了48GT/s和64GT/s,还支持3D堆叠封装,以后AI芯片能在单封装里集成更多计算核心和HBM堆栈。

9. 趋势总结:互联已经变成核心战略资源

现在异构计算的互联方案,已经呈现出几个非常明确的趋势:

第一,硬件一致性是准入门槛。不管是开放的CXL还是私有的NVLink-C2C,要做深度融合的异构系统,硬件级缓存一致性已经是必须的,没有这个就做不了细粒度并行。

第二,以太网化和开放标准化是大方向。集群规模越来越大,要做到百万卡级别,用以太网物理层做低成本扩展已经挡不住了,UALink这类开放标准起来之后,专有协议的市场空间会越来越受挑战。

第三,光互联很快就要落地。铜缆超过2到4米信号衰减就扛不住了,硅光子和共封装光学已经从实验室走向数据中心,现在华为等厂商已经开始在协议层做文章,解决光模块误码率高的问题。

第四,封装本身就是网络。UCIe正在把整个封装变成一个低延迟高速网络,大芯片能通过芯粒拼接突破制造极限,以后会越来越普及。

总的来说,现在异构芯片的互联早就不是单纯的接插件了,已经变成整个系统架构里最重要的战略资源。

选什么互联方案,不只是看带宽数字,还要看软件生态成熟度、集群可扩展性,还有长期的总体拥有成本。

未来的计算系统,不会再有明确的处理器存储器的边界,最后就是一张用高速低功耗互联织出来的巨大计算网络。

对于想做异构算力的团队来说,早点摸清楚不同互联方案的优缺点,选对路线比单纯堆算力重要得多。

海王的终极形态,是让你没得选。

写了这么多,划个重点:

PCIe:公交车,哪都能去,但慢。适合当“备用方案”和“控制通道”。

NVLink:私人飞机,巨快,但贵且封闭。老黄的护城河。

CXL:共享单车+月老,想撮合所有芯片搞内存池化。理想很大,但受限于物理层。

UALink:巨头们组队干NVLink的产物。纸面很强,等落地。

UCIe:封装内的胶水,让芯粒像乐高一样拼。未来所有超大芯片的标配。

光互联:终极解决方案。等成本降下来,铜线就可以退休了。

趋势也很明显:一致性、以太网化、标准化、光进铜退。

未来的计算系统,不会再是“CPU在这里,GPU在那里,内存在那一边”。而是一个由高速互联织成的巨大网络,计算、存储、通信的边界全部模糊掉。

从“计算为王”,到“互联为王”。

时代变了。

相关推荐