如果GPU是瑞士军刀,ASIC就是手术刀。Google靠一颗自研TPU,省掉了至少150亿美元的数据中心投资。2026年,TPU v7的FP8峰值算力4614 TFLOPS——压了NVIDIA B200一头。这篇文章从脉动阵列的底层原理讲起,把ASIC这条路从头拆到尾。
一、ASIC凭什么能打GPU?
1.1 先看两组数据
Google在2025年Hot Chips大会上公布了一组内部测算:跑大规模推理任务,TPU v5p的总拥有成本(TCO)比NVIDIA GB200方案低约44%。TPU v7(Ironwood)发布后,这个优势只会更大。
再看另一个数据:Anthropic在2025-2026年把核心训练和推理算力从AWS Trainium迁到了Google TPU。迁移适配只花了不到两个月——说明TPU的软件成熟度远比外界以为的高。
ASIC凭什么?三个字:专用化。
GPU是为图形渲染设计的,后来发现并行计算能力强,被拉来做AI。但GPU里有大量AI用不到的东西——图形管线、光栅化单元、纹理单元。B200的die里,真正做矩阵乘法的Tensor Core只占一小部分面积,剩下的大量晶体管在干别的事。
ASIC不一样。从第一天起,它的设计目标就一个:用最少的晶体管、最低的功耗,把矩阵乘法做到极致。
| 维度 | GPU(NVIDIA B200) | ASIC(Google TPU v7) | 差距 |
|---|---|---|---|
| 设计哲学 | 通用并行计算 + AI加速 | 纯AI专用(训练+推理) | — |
| FP8峰值算力 | 4,500 TFLOPS | 4,614 TFLOPS | TPU高2.5% |
| HBM容量 | 192 GB HBM3e | 192 GB | 持平 |
| HBM带宽 | 8.0 TB/s | 7.38 TB/s | B200高8% |
| TDP | 1,000W | 未公开(估计800-900W) | TPU更低 |
| 芯片间互联 | NVLink 5.0: 1.8 TB/s | ICI: 1.2 TB/s | B200高50% |
| 软件生态 | CUDA(近乎垄断) | JAX/XLA(仅限Google Cloud) | CUDA远胜 |
| 销售模式 | 卖芯片/卖DGX整机 | 不卖芯片,只卖云服务 | — |
| 推理TCO(vs GB200) | 基准 | 低约44% | TPU显著优势 |
数据来源:Google Cloud TPU v7官方文档、NVIDIA B200公开规格、Google Hot Chips 2025 TCO数据。
上表的核心信息不是"TPU v7比B200强"——事实上互联带宽B200领先不少。核心信息是:一颗只为AI设计的芯片,可以用更低的功耗、更低的成本,在AI任务上达到甚至超越通用GPU的性能。
1.2 ASIC的代价
但ASIC不是免费的午餐。专用化的代价很明确:
NRE成本极高。3nm一次Full Mask流片超过6000万美元。GPU可以靠海量出货摊薄研发费——NVIDIA一张B200卖3-4万美元,全球出货百万级。ASIC的出货量通常只有GPU的零头,单颗芯片分摊的研发成本高得多。这就是为什么只有Google、Amazon这种云巨头敢自研ASIC——他们不需要靠卖芯片赚钱,省下的是采购GPU的钱。
灵活性差。GPU上跑ResNet、跑LLaMA、跑扩散模型,CUDA都能搞定。ASIC的架构是为某一类工作负载优化的——TPU v1只能做推理(INT8),不能训练。虽然后续版本补上了训练能力,但架构的专用性决定了它在非目标场景下的效率会急剧下降。
软件生态薄弱。NVIDIA花了二十年搭建CUDA生态。ASIC厂商——不管是Google、Amazon还是寒武纪——都得从零搭自己的软件栈。编译器、算子库、调试工具、框架适配,每一项都是巨大的工程投入。
二、脉动阵列:ASIC的心脏
理解了脉动阵列(Systolic Array),就理解了ASIC AI芯片的底层逻辑。
2.1 矩阵乘法的本质
神经网络的计算,不管是卷积还是Transformer,核心都是矩阵乘法。一个最简单的矩阵乘法 C = A × B:
C[i][j] = Σk A[i][k] × B[k][j]
用传统CPU做这件事:一个时钟周期加载A的一个元素,下一个周期加载B的一个元素,再下一个周期做乘法,再下一个周期做加法……算一个C[i][j]要几十个周期。这就是为什么CPU跑AI慢——不是算得慢,是数据搬运太慢。
GPU的解法是SIMT(单指令多线程):用几千个CUDA Core同时算不同的C[i][j]。效率高了很多,但每个Core还是要独立从显存加载数据。
脉动阵列的解法更激进:数据只加载一次,在阵列里像脉搏一样流动,每个时钟周期所有处理单元同时工作。
2.2 脉动阵列怎么工作
想象一个4×4的处理单元(PE)网格。每个PE做的事非常简单:
就这么简单。每个PE接收左边传来的A元素、上边传来的B元素,做一次乘加,然后把A传给右边、B传给下边。整个阵列像一个流水线——数据从左上方"泵入",经过每个PE时完成一次乘加,最终从右下方流出完整的结果。
关键点在于数据复用。在权重固定的数据流(Weight-Stationary)中,每个PE的权重值只需要加载一次,然后输入数据流过整个阵列。一个128×128的脉动阵列,每个时钟周期完成128×128=16384次乘加运算——但数据的加载量只相当于一列加一行,而不是16384个独立的数据。
这就是脉动阵列的核心优势:用最小的数据搬运代价,实现最大的计算吞吐。
2.3 TPU的MXU:从128×128到256×256
Google TPU的矩阵乘法单元叫MXU(Matrix Multiply Unit)。每一代MXU的规模都在翻倍:
| TPU版本 | MXU配置 | 每个MXU的PE数 | 每周期MAC数 | BF16 TFLOPS |
|---|---|---|---|---|
| v1(2016) | 1× 256×256(仅INT8) | 65,536 | 131,072 | —(INT8: 92 TOPS) |
| v2(2017) | 2× 128×128 | 16,384×2 | 65,536 | 45 |
| v3(2018) | 2× 128×128 | 16,384×2 | 65,536 | 123 |
| v4(2020) | 4× 128×128 | 16,384×4 | 131,072 | 275 |
| v5e(2023) | 4× 128×128 | 16,384×4 | 131,072 | 197 |
| v5p(2023) | 4× 128×128 | 16,384×4 | 131,072 | 459 |
| v6e / Trillium(2024) | 4× 256×256 | 65,536×4 | 524,288 | 918 |
| v7 / Ironwood(2026) | 8× 256×256 | 65,536×8 | 1,048,576 | 2,307 |
数据来源:Google TPU架构文档及Hot Chips各年度公开资料。v1为INT8推理专用,无BF16算力数据。
从v1到v7,十年时间,MXU总MAC数从13万涨到了100万——翻了8倍。其中最大的跳跃是v6e(Trillium):单个MXU从128×128直接跳到256×256,一个MXU的PE数翻了4倍。
v7(Ironwood)更进一步:8个256×256的MXU并行工作,每周期完成超过100万次乘加运算。而且v7首次采用了双芯粒(dual-chiplet)架构——每个芯粒包含1个TensorCore和96GB HBM,通过裸片间接口(速度是ICI的6倍)连接。
2.4 从4×4到256×256:MiniTPU的设计逻辑
理解了256×256的MXU,回到一个更基础的问题:一个4×4的脉动阵列怎么设计?这就是MiniTPU项目的核心。
MiniTPU是一个4×4的脉动阵列,用于演示矩阵乘法的硬件实现。虽然规模只有TPU MXU的万分之一,但架构逻辑完全一致。
设计参数:
| 参数 | MiniTPU | 对应TPU概念 |
|---|---|---|
| 阵列尺寸 | 4×4 | MXU(128×128或256×256) |
| PE功能 | 8bit乘法 + 32bit累加 | BF16乘法 + FP32累加 |
| 数据流 | 权重固定(Weight-Stationary) | 完全相同 |
| 控制逻辑 | 有限状态机控制数据加载/计算/输出 | 复杂流水线控制 |
| 存储层次 | 输入buffer + 权重buffer + 输出buffer | VMEM + HBM |
| 实现方式 | Verilog RTL → 仿真验证 | 完全相同 |
MiniTPU虽然小,但完整覆盖了脉动阵列设计的全部核心问题:
数据加载顺序。矩阵A和B的元素不是一次性灌入阵列的——要按照特定的时序错开,让数据在阵列中"波浪式"传播。A矩阵的行元素从左往右依次延迟送入,B矩阵的列元素从上往下依次延迟送入。这个时序控制是脉动阵列设计最容易出错的地方。
流水线填充与排空。阵列开始工作时,前面的周期只有部分PE在工作(流水线填充阶段);结束时也一样(排空阶段)。对于一个N×N的阵列做M×M的矩阵乘法,实际有效的计算周期占比是多少?这个利用率分析直接影响架构参数的选择。
存储带宽匹配。PE的运算速度很快(一个周期一次乘加),如果数据供不上,阵列就空转。4×4的小阵列这个问题不明显,但256×256的大阵列,数据供给带宽往往比计算本身更难设计。
三、Google TPU七代演进:从推理到训练到双芯粒
3.1 完整演进路线
| 代际 | 发布时间 | 制程 | 定位 | 关键架构变化 | BF16 TFLOPS | HBM |
|---|---|---|---|---|---|---|
| v1 | 2016 | 28nm | 推理专用 | 1×256×256 MXU(仅INT8),DDR3内存 | — | —(DDR3) |
| v2 | 2017 | 20nm | 训练+推理 | 2×128×128 MXU,首次支持BF16,引入HBM | 45 | 16 GB HBM2 |
| v3 | 2018 | 16nm | 训练+推理 | MXU不变,翻倍频率,水冷散热 | 123 | 32 GB HBM2 |
| v4 | 2020 | 7nm | 训练+推理 | 4×128×128 MXU,引入SparseCore,ICI互联 | 275 | 32 GB HBM2e |
| v5e | 2023 | 5nm | 推理优化 | 4×128×128 MXU,低功耗优化 | 197 | 16 GB HBM2e |
| v5p | 2023 | 5nm | 训练主力 | 4×128×128 MXU,满血频率 | 459 | 95 GB HBM2e |
| v6e | 2024 | 5nm | 训练+推理 | 4×256×256 MXU,单MXU PE数翻4倍 | 918 | 32 GB |
| v7 | 2026 | 5nm | 训练+推理 | 8×256×256 MXU,双芯粒架构 | 2,307 | 192 GB |
数据来源:Google Cloud TPU官方文档、Hot Chips历年公开资料。v1无BF16支持,不适用TFLOPS指标。
几个关键转折点:
v1→v2:从推理到训练。v1只能做INT8推理,不能训练。v2加入了BF16支持和HBM,让TPU首次具备了训练能力。这个转折决定了TPU从此不只是"推理加速卡",而是一个完整的AI计算平台。
v4:SparseCore的引入。v4开始在每个芯片上加入SparseCore——专门处理Embedding查找的加速单元。推荐系统里,Embedding操作占了大半的计算量,传统GPU做这件事效率很低。SparseCore用专用的高带宽SRAM和查找逻辑,把Embedding吞吐提了5-10倍。这是ASIC"专用化"优势的典型体现——GPU不可能为了Embedding专门改架构,但TPU可以。
v6e:MXU尺度跃迁。从128×128跳到256×256,一个MXU的PE数翻了4倍。更大的阵列意味着更高的数据复用率——在做大矩阵乘法时,数据在阵列内部流动的路径更长,从外部存储加载的次数更少。
v7:双芯粒。Ironwood首次采用双芯粒架构——每个芯片包含两个独立的TensorCore(各有自己的HBM),通过裸片间高速接口通信。这不是简单的"两个v6e拼一起"——软件层面需要JAX框架把每个芯粒暴露为独立设备,编程模型从单设备变成双设备。Google说"只需极少量修改即可复用现有代码",但实际工程复杂度远不止于此。
3.2 TPU的软件栈:JAX + XLA
硬件只是TPU的一半。另一半是软件栈,而且这半的壁垒可能更高。
TPU的软件栈从下到上是:硬件驱动 → libtpu(运行时库)→ XLA编译器 → JAX/TensorFlow框架。
XLA(Accelerated Linear Algebra)是这个栈的核心。它做的事情是把用户写的Python/NumPy代码编译成TPU上可以高效执行的HLO(High-Level Operations)。这个过程包括:图优化(算子融合、内存复用)、算子选择(大矩阵用MXU、小算子用VPU标量单元)、自动并行化(把计算分布到多个TPU芯片上)。
一个容易被忽略的细节:TPU v7只支持JAX框架,不再支持TensorFlow。这标志着Google内部AI框架路线的彻底转向——JAX已经成为Google AI研究的"官方语言"。对TPU用户来说,这意味着学习成本——如果你之前用PyTorch,迁移到JAX+TPU需要重写模型代码。
四、云厂商的自研芯片浪潮
Google不是唯一在自研AI芯片的。四大云厂商全部下场了:
| 云厂商 | 芯片系列 | 最新一代 | 定位 | 关键特征 | 进展 |
|---|---|---|---|---|---|
| TPU | v7 Ironwood(2026) | 训练+推理 | 8×256×256 MXU,双芯粒,仅卖云服务 | Anthropic百万颗订单 | |
| AWS | Trainium / Inferentia | Trainium2(2024) | 训练 / 推理分离 | NeuronCore架构,96GB HBM3e | Anthropic叛逃至TPU |
| Microsoft | Maia | Maia 100(2024) | 推理为主 | 与OpenAI深度绑定,台积电5nm | 起步较晚 |
| 阿里云 | 平头哥含光 / 真武 | 真武M890(2026) | 推理+训练 | 通过国家安全可靠测评I级 | 国内互联网自研标杆 |
| 百度 | 昆仑芯 | 昆仑芯3(2025) | 推理为主 | 14nm,64 TFLOPS INT8 | 文心大模型部署 |
| 字节跳动 | 自研ASIC | 在研 | 推理 | 与博通合作,台积电代工 | 预计2027量产 |
数据来源:各厂商官方公告及行业报道。Trainium2互联带宽G级、并行效率50-60%的问题在第1篇已有详述。
AWS Trainium的教训值得单独说。Trainium定位出了问题——一开始瞄准中小企业通用场景,互联带宽只有Gigabit级别。等大模型来了才发现,并行训练时实际效率只有理论值的50-60%,将近一半算力被网络瓶颈吃掉。Anthropic从Trainium迁到TPU,本质上是对这个战略失误的投票。
Microsoft Maia起步晚但目标明确——和OpenAI绑定,专注GPT系列模型的推理优化。这种"为一个客户定制一颗芯片"的模式,是ASIC逻辑的极致体现。
国内方面,阿里平头哥的真武系列和百度昆仑芯是目前走得最远的云厂商自研芯片。真武M890通过了国家安全可靠测评I级,意味着在信创市场有明确的采购通道。
五、中国ASIC玩家全景
中国的AI芯片创业公司,大多数走的是ASIC路线——不是做通用GPU,而是做针对AI场景优化的专用芯片。
| 企业 | 旗舰产品 | 架构类型 | 制程 | INT8 TOPS | FP16 TFLOPS | 2025营收 |
|---|---|---|---|---|---|---|
| 寒武纪 | 思元590 | NPU(MLUarch05) | 7nm Chiplet | 512 | 256 | 64.97亿 |
| 燧原科技 | 云燧T20 | GCU(通用计算单元) | 7nm | — | 200 | 未披露 |
| 百度昆仑芯 | 昆仑芯3 | XPU-R架构 | 14nm | 64 | — | 未单独披露 |
| 阿里平头哥 | 含光800 | 自研NPU | 12nm | — | — | 未单独披露 |
| 瀚博半导体 | SV100 | DSA(领域专用架构) | 7nm | — | — | 未披露 |
| 天数智芯 | 天垓100 | 通用GPGPU | 7nm | — | 147 | 未披露 |
数据来源:各企业公开产品资料、行业研报。部分参数未公开以"—"标注。营收为2025年度数据。
注意:天数智芯走的是GPGPU路线(类似NVIDIA),不是严格意义上的ASIC。但它的天垓100架构同样针对AI工作负载做了大量定制化设计,和通用GPU有明显区别。
寒武纪的ASIC路线
寒武纪是中国最纯粹的ASIC AI芯片公司。从2016年成立到现在,一直坚持NPU(神经网络处理器)路线——不做通用GPU,不碰CPU,只做AI加速。
思元590是寒武纪的旗舰产品:7nm Chiplet封装,MLUarch05架构,INT8算力512 TOPS,FP16算力256 TFLOPS。据第三方测试,在特定任务(图像分类、自然语言处理)上性能达到NVIDIA A100的80-90%。
寒武纪的软件栈叫NeuWare,对标NVIDIA CUDA。但说实话差距不小——算子覆盖率、框架适配的广度和深度、调试工具的成熟度,和CUDA比都还有明显距离。
但寒武纪有一个独特的优势:IP授权模式。早期寒武纪靠给华为麒麟芯片提供NPU IP起家,这种商业模式让它积累了大量的架构设计和IP交付经验。现在虽然华为自研了达芬奇架构,但寒武纪的IP授权业务仍然是营收的重要组成部分。
2025年寒武纪营收64.97亿(+453%),上市以来首次全年盈利。这个数据比任何技术参数都有说服力——市场在用钱投票。
六、ASIC的困境与未来
6.1 创业做ASIC为什么九死一生
中国ASIC AI芯片创业公司高峰时有几十家,现在活下来的不到10家。核心困境就三个:
钱。一次7nm流片,Full Mask费用2000-2500万美元。加上IP授权费、EDA工具费、工程师工资,一款芯片从零到量产,没有1-2亿美元根本下不来。而且流片一次成功的概率很低——第一版回来有bug,改版再流,又是一笔巨款。很多创业公司融了一两轮资,全烧在流片上了。
软件。硬件做出来只是第一步。软件栈——编译器、算子库、框架适配、调试工具——的投入往往比硬件还大。CUDA有二十年的积累、几百万开发者、几十万个开源项目。一个创业公司几十个人的软件团队,怎么可能追上?
市场。就算芯片做出来了、软件也通了,客户在哪?大模型训练市场基本被NVIDIA锁死。推理市场虽然机会更大,但客户切换芯片的成本很高——要重写推理代码、重新做性能调优、重新做稳定性验证。没有几个客户愿意冒这个风险。
6.2 破局的可能路径
三条路正在被验证:
一是绑定大客户。像阿里平头哥、百度昆仑芯这样,芯片做出来先给自家云服务用。内部验证过了,再逐步开放给外部客户。这种模式下,芯片公司不需要自己找市场——母公司就是最大的客户。
二是走信创通道。2026年有9款国产AI芯片通过了国家安全可靠测评I级。通过测评意味着进入政府采购和央企采购的白名单。信创市场的逻辑和商业市场不同——不只看性能和价格,更看安全可控。这是国产芯片的一条"保底"出路。
三是做垂直场景。不做"替代NVIDIA"的大而全芯片,而是聚焦某个细分场景做到极致。比如瀚博半导体专注视频AI处理、地平线专注自动驾驶。细分场景里NVIDIA的通用性反而是劣势——客户需要的是针对特定工作负载深度优化的方案。
最后
ASIC的本质不是"更便宜",而是"更对"——为正确的任务设计正确的架构。Google TPU从v1到v7的十年,证明了一件事:当你知道你的芯片要跑什么工作负载时,通用计算不是最优解。
但ASIC的成功有条件:要么你有Google那样的体量(自产自销,不需要卖芯片),要么你有阿里那样的内部场景(母公司的云服务就是第一个客户),要么你在一个足够大的垂直市场里做到不可替代。
对求职者来说,ASIC方向的机会在三个地方:一是Google TPU团队(全球顶尖的脉动阵列设计团队,但base在美国),二是国内头部的ASIC芯片公司(寒武纪/燧原/昆仑芯),三是云厂商的自研芯片部门(阿里平头哥/字节/百度)。
面试ASIC方向,脉动阵列的原理和数据流设计是必考题。如果你能讲清楚Weight-Stationary、Output-Stationary、Row-Stationary三种数据流的区别和适用场景,就已经超过了90%的候选人。
下期预告:第4篇——AI芯片的"粮仓":HBM与先进存储深度解析。存储墙是AI芯片最大的性能瓶颈,HBM4是2026年最热的产业链话题。
本文综合来源:Google Cloud TPU v7 (Ironwood) 官方文档、Google Hot Chips 2025公开资料、TPU v1-v7架构演进技术文档(sampooni.github.io)、NVIDIA B200公开规格、寒武纪/燧原科技/昆仑芯/阿里平头哥/瀚博半导体等企业公开产品资料、AWS Trainium2官方文档、各厂商2025年度业绩公告。
1402