2025 年,一台 8 卡 H100 服务器的内部互联带宽需求已经突破 TB/s 级别。而在每块 GPU 的背后,都有一组你很少听说的芯片在默默工作——它们决定数据能否在 GPU、CPU、内存和存储之间畅通无阻。这些芯片,正是 PCIe 交换芯片和信号增强芯片。
本文将从技术原理、核心芯片、互联协议、主要厂商和未来趋势五个维度,为你还原 PCIe 芯片与互联技术的完整图景。
一、PCIe 是什么?为什么它如此重要?
PCIe(PCI Express)是连接 CPU 与 GPU、SSD、网卡等外设的高速串行总线标准,自 2003 年发布以来已历经七代演进。它的核心架构基于多通道绑定——通道数越多,带宽越高,常见配置为 x1、x4、x8、x16。
| 版本 | 发布年份 | 每通道速率 | x16 双向带宽 | 信令方式 | 标志性变革 |
|---|---|---|---|---|---|
| PCIe 3.0 | 2010 | 8 GT/s | 32 GB/s | NRZ | 编码效率提升 |
| PCIe 4.0 | 2017 | 16 GT/s | 64 GB/s | NRZ | 速率翻倍 |
| PCIe 5.0 | 2019 | 32 GT/s | 128 GB/s | NRZ | AI 服务器标配 |
| PCIe 6.0 | 2022 | 64 GT/s | 256 GB/s | PAM4 | 引入 PAM4 + FLIT 模式 + FEC 纠错 |
| PCIe 7.0 | 2025 | 128 GT/s | 512 GB/s | PAM4 | 频率翻倍,原生支持光互联 |
PCIe 6.0 是真正的代际分水岭:首次用 PAM4 信令在不提高频率的情况下翻倍速率,并引入 FLIT 固定包模式,为前向纠错(FEC)和 CXL 一致性互联奠定基础。
推动 PCIe 持续演进的三大动力:GPU 互联需求(8 卡服务器需要 TB/s 级互联)、NVMe SSD 爆发(Gen5 x4 已达 14 GB/s)、CXL 协议承载(CXL 直接运行在 PCIe 物理层之上)。
二、核心芯片图谱:Switch 与 Retimer
PCIe 芯片产业的核心器件分为两类:负责数据路由的交换芯片和负责信号再生的增强芯片。
2.1 PCIe 交换芯片(Switch):数据高速公路的立交桥
现代 CPU 通常只提供 16-128 个 PCIe 通道,而 AI 服务器需要同时连接 8 张 GPU(每张 x16)、数十块 NVMe SSD、多张网卡和加速卡。PCIe Switch 解决了「通道不够用」的核心矛盾——它能将有限的上行通道扩展为数倍的下行通道,并通过交换矩阵实现数据包的智能路由。
其内部核心组件包括:上游端口(连 CPU)、下游端口(连设备)、交换矩阵(查表转发、仲裁调度)、缓存缓冲区和 SR-IOV 虚拟化引擎。
| 厂商 | 核心产品线 | 最新代次 | 关键亮点 |
|---|---|---|---|
| Broadcom 博通 | PEX89000 系列 | PCIe 5.0(Gen6 在研) | 全球份额 ~70%,产品线最完整,最高 144 通道 |
| Microchip 微芯 | Switchtec PFX/PSX | PCIe 6.0 | 2025 年 10 月全球首发 3nm Gen6 Switch,最高 160 通道 |
| Diodes 达尔 | PCIe Packet Switch | PCIe 3.0/4.0 | 低功耗低成本,含车规级(AEC-Q100)产品 |
| ASMedia 祥硕 | ASM 系列 | PCIe 3.0/4.0 | 低通道数 Switch,面向消费与嵌入式 |
| 盛科通信 | 研发中 | — | 以太网交换芯片延伸 PCIe,国产替代主力 |
2.2 信号增强芯片:Retimer 与 Redriver
当 PCIe 速率提升到 32 GT/s(Gen5)乃至 64 GT/s(Gen6),信号在 PCB 走线、连接器和线缆中的衰减急剧增大,眼图闭合导致误码率飙升。Redriver 和 Retimer 是两种应对方案:
| 对比维度 | Redriver(重驱动器) | Retimer(重定时器) |
|---|---|---|
| 工作原理 | 纯模拟放大 + CTLE 均衡 | CDR 时钟恢复 → 数字判决 → 重新生成信号 |
| 直观类比 | 「助听器」——放大也放大噪声 | 「翻译+复读机」——听懂后重新发送 |
| 抖动处理 | 抑制确定性抖动,但累积随机抖动 | 彻底重置抖动预算 |
| 损耗补偿 | ≤16 dB | 28 dB+ |
| 延迟 | 亚 ns~1 ns | 约 10 ns |
| 协议感知 | 无 | 完整参与 PCIe 链路训练(LTSSM) |
| 适用场景 | 短距、低成本、消费级 | 长距、高速、AI 服务器/数据中心 |
行业共识:PCIe 5.0/6.0 时代的 AI 服务器和高速背板场景中,Retimer 几乎为必选项。一台 8 卡 GPU 服务器通常配置 8-16 颗 Retimer 芯片。
| 厂商 | 核心产品 | 最新代次 | 市场地位 |
|---|---|---|---|
| Astera Labs | Aries Smart DSP Retimer | PCIe 6.x / CXL 3.x | 全球 Retimer 份额 ~60%,绝对龙头 |
| 澜起科技 | PCIe Retimer 系列 | PCIe 6.x / CXL 3.x | 2024 年份额 10.9%,全球第二;Gen6 Retimer 全球首发 |
| 谱瑞科技 Parade | PS89xx 系列 | PCIe 5.0 | Gen3 时代份额领先,Gen5 后竞争力减弱 |
| Broadcom 博通 | Retimer 产品线 | PCIe 5.0/6.0 | 与自家 Switch 形成组合方案 |
三、新型互联协议:PCIe 之外的世界
PCIe 是通用 I/O 总线,但它有一个天生短板——不支持缓存一致性,且延迟偏高(微秒级)。当 GPU 需要直接访问 CPU 或另一块 GPU 的内存时,PCIe 的「CPU 中转」模式就成了瓶颈。于是,三种新型互联协议应运而生。
3.1 CXL:基于 PCIe 的一致性互联
CXL(Compute Express Link)是运行在 PCIe 5.0/6.0 物理层之上的协议层扩展。它通过三大协议子集补上了 PCIe 的短板:
CXL.io——设备发现与配置(基于 PCIe 增强);
CXL.cache——CPU 与加速器的缓存一致性,延迟低至 200-500 ns,比传统 PCIe DMA(10 μs+)降低 95%;
CXL.mem——跨设备内存共享与池化,使 GPU 可直接访问 CXL 内存模块。
CXL 的核心杀手锏是内存池化——构建「CPU DRAM + CXL DRAM + GPU HBM」三级内存体系,按需动态分配,内存利用率可提升至 80% 以上。三星已量产 CMM-D(128 GB CXL DRAM 模块),阿里云宣布将推出首款基于 CXL 交换机的数据库专用服务器。
3.2 NVLink / NVSwitch:NVIDIA 的私有高速互联
NVLink 是 NVIDIA 独立于 PCIe 的私有芯片间互联协议,拥有独立的物理层和协议栈,是当前 GPU 互联的性能天花板:
| 版本 | 双向带宽 | 代表 GPU | 核心能力 |
|---|---|---|---|
| NVLink 1.0 | 80 GB/s | P100(Pascal) | 4 GPU 直连 |
| NVLink 2.0 | 150 GB/s | V100(Volta) | 引入 NVSwitch,8 GPU 互联 |
| NVLink 3.0 | 300 GB/s | A100(Ampere) | 全互联拓扑 |
| NVLink 4.0 | 450 GB/s | H100(Hopper) | 支持跨节点互联 |
| NVLink 5.0 | 1.8 TB/s | B100/B200(Blackwell) | NVL72 机架级互联,NVSwitch 7.2 TB/s |
NVLink 5.0 的单链路带宽是 PCIe 5.0 x16(128 GB/s)的 14 倍,且原生支持 GPU 间直接通信。但其封闭生态——仅 NVIDIA GPU 可用——是最大局限。
3.3 UALink:开放联盟的挑战者
2024 年,AMD、Intel、Google、Microsoft、Meta、Broadcom、Cisco 等联合成立 UALink 联盟,基于 AMD Infinity Fabric 技术,计划在 Broadcom 未来的 PCIe Gen7 交换机上实现标准化的 GPU 互联,直接对标 NVIDIA NVLink。
| 维度 | PCIe | CXL | NVLink | UALink |
|---|---|---|---|---|
| 类型 | 通用 I/O 总线 | 一致性互联 | 私有 GPU 互联 | 开放 GPU 互联 |
| 缓存一致性 | ❌ | ✅ | ✅ | ✅ |
| 最大带宽 | 512 GB/s (Gen7) | 256 GB/s (Gen6) | 1.8 TB/s (NVLink 5) | 待定 |
| 开放性 | ✅ 完全开放 | ✅ 开放标准 | ❌ NVIDIA 私有 | ✅ 开放联盟 |
| 典型场景 | 通用 I/O、SSD、网卡 | 内存池化、异构计算 | NVIDIA GPU 集群训练 | 非 NVIDIA GPU 集群训练 |
四、市场格局:千亿赛道,谁主沉浮?
4.1 市场规模
| 细分市场 | 2024 年 | 2030-2031 年(预测) | CAGR |
|---|---|---|---|
| PCIe 互连芯片(总计) | 22.89 亿美元 | 77.61 亿美元 | ~20.1% |
| PCIe 交换芯片(Switch) | 10.40 亿美元 | 25.15 亿美元 | ~15.8% |
| PCIe 重定时器芯片(Retimer) | 3.95 亿美元 | 24.83 亿美元 | ~35.8% |
Retimer 增速远超 Switch——AI 服务器出货量激增直接拉动需求,单台 8 卡 GPU 服务器需 8-16 颗 Retimer,2025 年中国 PCIe 互连芯片市场规模已达 52.40 亿元人民币,同比增长 28.6%。
4.2 竞争格局速览
第一梯队:Broadcom(Switch 份额 ~70%,整体互连龙头)
第二梯队:Microchip(Switch 次席,Gen6 首发 3nm)、Astera Labs(Retimer 份额 ~60%)
第三梯队:澜起科技(Retimer 全球第二 10.9%,Gen6 首发)、Diodes、ASMedia、谱瑞
国产新势力:盛科通信、数渡科技(Switch 在研)、合见工软(PCIe IP)
一个关键数据:中国是全球最大的 PCIe 交换芯片市场,2024 年占全球约 48%,但国产化率不足 5%。这是半导体自主可控的重要攻坚方向。
五、核心公司一览
以下是 PCIe 互联芯片产业链中相关性最强的 10 家公司:
六、未来趋势
PCI-SIG 已在 PCIe 6.4/7.0 中加入光感知 Retimer支持,「以光代铜」从概念走向标准化,传输距离从米级扩展至百米级。
CXL 3.1 交换机芯片量产在即,「CPU DRAM + CXL DRAM + GPU HBM」三级内存池架构走向主流,有望将内存利用率提升至 80% 以上。
澜起科技 PCIe 6.x Retimer 全球首发、盛科通信 Switch 在研、合见工软 PCIe IP 突破,国产 PCIe 芯片正从「追赶」进入「并跑」阶段。
PCIe/CXL 主导通用市场、NVLink 统治 NVIDIA 生态、UALink 争夺开放加速器市场——三种协议将在未来五年持续博弈,最终格局取决于生态规模与推进速度。
结语
如果把 AI 大模型训练比作一场马拉松,GPU 是肌肉,HBM 是心脏,那 PCIe 芯片就是遍布全身的血管系统——它们不直接参与计算,但没有它们,一切算力都是孤岛。
从 PCIe 5.0 到 7.0,从纯电信号到光电混合,从单一协议到 CXL/NVLink/UALink 多协议并存,从 Broadcom 一家独大到澜起科技异军突起——PCIe 互联芯片正在经历史上最快的技术迭代和产业重构。理解这个赛道,就是理解 AI 算力基础设施的核心命脉。
本文数据来源:QYResearch、Frost & Sullivan、PCI-SIG 官方规范、CXL Consortium、NVIDIA 官方文档、澜起科技 2025 年报、东海/太平洋/东吴证券研报
声明:本文仅供行业研究参考,不构成任何投资建议。
320