2026年全球AI芯片销售额9580亿人民币,CAGR 18.8%,2032年预计达2.69万亿;
NVIDIA B200毛利率~81%,BOM成本约$6,500,售价$30,000-40,000;
中国AI加速卡国产占比41%,2025年出货量口径,但训练市场仍不足15%;
寒武纪2025年营收增速+453%,64.97亿元,上市后首次全年盈利。
说个数字:2025年全球头部半导体公司合计卖了超过4000亿美元的芯片,其中AI芯片1059.8亿美元。2026年预计涨到9580亿人民币。但如果你把NVIDIA从这张表里拿掉,整个AI训练市场就剩不到20%了。
再看国内。2025年中国AI加速卡出货量里,国产占比冲到41%——看着挺猛。但训练场景的国产化率不到15%,MLPerf官方榜单上至今没有一家中国芯片公司提交过成绩。差距不在纸面算力,在软件、在生态、在没人敢把真金白银的业务押上去。
做芯片十几年了,我越来越觉得AI芯片这个行当像一个黑洞——它把半导体行业所有最难的事都吸到了一起:最先进的制程、最大的die面积、最复杂的封装、最深的软件栈、最贵的流片费。这篇文章试着把这些东西拆开来看,不搞科普那一套,就是行业里的人怎么看这个市场。
一、万亿市场是怎么来的
1.1 先看一张总表
| 维度 | 2025 | 2026E | 2032E |
|---|---|---|---|
| 全球AI芯片销售额 | 7662亿元($1059.8亿) | 9580亿元 | 26895亿元 |
| 全球销量 | 1350万颗 | ~1700万颗 | — |
| 均价 | $7,850/颗 | — | — |
| 行业毛利率 | 54% | — | — |
| CAGR | 18.8%(2026-2032) | ||
| 中国国产占比(出货量) | 41% | 持续提升 | 目标70%(2027) |
数据来源:共研网《2026-2032年全球及中国AI芯片市场全景调查》、IDC中国AI加速卡出货追踪。注意这里的"AI芯片"口径比较宽,包含了GPU、ASIC、FPGA等所有AI加速硬件。
这组数字有三个值得注意的地方。
第一,AI芯片正在吃掉半导体行业的增量。全球半导体2025年总收入大概6200亿美元,AI相关芯片贡献了超过六分之一。而且这个比例只会往上走——手机SoC、PC CPU这些传统大品类的增速已经平了,甚至在下滑。
第二,中国市场的结构性错配。国产占比41%看着漂亮,但拆开看:绝大多数出货在推理卡和边缘场景。训练卡——就是用来训大模型的那种——国产占比不到15%。华为昇腾910C在LLaMA-2 70B推理实测中只能跑到H100的约40%。这个问题后面会展开说。
第三,平均售价7850美元。一颗AI芯片的均价相当于一辆二手飞度。NVIDIA B200单卡3-4万美元,一台DGX B200(8卡)报价约51.5万美元。全球科技巨头在AI芯片上的资本开支,已经超过了不少中等国家的年度军费。
1.2 GPU vs ASIC vs FPGA:三条路线的牌局
很多人以为AI芯片就是GPU。其实这个市场是三条技术路线在打牌,而且牌面正在变。
| 维度 | GPU | ASIC | FPGA |
|---|---|---|---|
| 代表 | NVIDIA B200、AMD MI300X | Google TPU v7、华为昇腾910C | AMD Versal、Intel Agilex |
| FP8峰值算力 | B200: 4,500 TFLOPS | TPU v7: 4,614 TFLOPS | 10-100 TFLOPS量级 |
| HBM容量 | 192 GB | 192 GB | — |
| 单卡价格 | $30,000-40,000 | 不零售(云服务形式) | $5,000-15,000 |
| 软件生态 | CUDA(近乎垄断) | 各自为战 | Vitis/HLS |
| 强项 | 通用性、训练 | 推理效率、TCO | 低延迟、可重配 |
| 虚拟化 | 成熟(MIG) | 弱 | 弱 |
| 灵活性 | ★★★★★ | ★★ | ★★★★ |
数据来源:NVIDIA官方规格表(spheron.network引用)、Google Cloud TPU v7文档(docs.cloud.google.com)。
GPU路线是当前绝对的王者,但ASIC正在从推理侧一口一口地咬走份额。Google TPU v7的FP8峰值算力(4614 TFLOPS)已经和B200(4500 TFLOPS)打平,而且据Google自己测算,跑推理任务的总拥有成本(TCO)比NVIDIA GB200方案低约44%。这个数字有多大杀伤力,后面讲Anthropic的时候会具体说。
FPGA在大模型训练里基本没戏了,但在两个地方仍然活得不错:一是自动驾驶ADAS(低延迟硬需求),二是原型验证。AMD的Versal AI Edge系列和Intel Agilex 7在这块还有稳定收入。但如果你在看AI芯片的求职方向,FPGA赛道的机会增速远不如GPU和ASIC。
一个判断:2026年最重要的趋势不是谁发了新卡,而是推理市场的战争正在从GPU手里溜走。训练市场NVIDIA还能守很久,但推理——这个比训练大得多的市场——ASIC的性价比优势越来越难忽视。
二、霸主和几个挑战者
2.1 NVIDIA的三道墙
先摆数据。B200 vs H100,这一代的提升是这样的:
| 规格 | H100 SXM5 | B200 | 变化 |
|---|---|---|---|
| 显存 | 80 GB HBM3 | 192 GB HBM3e | +140% |
| 显存带宽 | 3.35 TB/s | 8.0 TB/s | +139% |
| FP8(密集) | ~1,979 TFLOPS | 4,500 TFLOPS | +127% |
| FP4(密集) | 不支持 | 9,000 TFLOPS | 全新 |
| NVLink带宽 | 900 GB/s | 1.8 TB/s | +100% |
| TDP | 700W | 1,000W | +43% |
| 单卡售价 | $25,000-35,000 | $30,000-40,000 | +15-20% |
数据来源:NVIDIA B200官方规格(spheron.network/NVIDIA技术文档交叉验证)。
性能翻倍,价格涨不到两成——这种定价策略换个角度看就是:NVIDIA在给后来者留的追赶窗口越来越窄。
但NVIDIA真正的护城河不在硬件。硬件上AMD MI300X的纸面参数已经很接近了(192GB HBM3、5.3 TB/s带宽)。真正让竞争对手绝望的是三件事:
一是CUDA。全球AI开发者里用CUDA的比例超过90%。PyTorch、JAX这些主流框架对CUDA的支持是十几年磨出来的。国产芯片做CUDA兼容层,性能损耗普遍在15-30%。这不是技术问题,是时间问题——你没法用两年追上别人十五年的生态积累。
二是迭代速度。从H100(2022)到B200(2024),两年时间FP8翻了一倍多,加了FP4,功耗只涨了43%。这不是挤牙膏,这是跳代。而且B300已经在路上了——288GB HBM3e、FP4密集15000 TFLOPS、TDP 1400W。
三是系统整合。NVIDIA早就不只是卖卡了。DGX B200是一整台AI超算,从GPU到NVLink到InfiniBand到CUDA软件栈全是自己的。AMD去年收购ZT Systems,本质上就是在追这种"从硅到机柜"的交付能力。
2.2 四个在追的人
| 公司 | 武器 | 最强产品 | 优势 | 短板 |
|---|---|---|---|---|
| TPU | v7 Ironwood FP8: 4,614 TFLOPS 192GB HBM, 7.37TB/s |
TCO低44% Anthropic百万颗订单 |
不卖芯片 虚拟化弱 |
|
| AMD | MI GPU | MI300X 192GB HBM3, 5.3TB/s |
ROCm开源 收购ZT Systems |
软件生态差距大 |
| AWS | Trainium | Trainium2 | 最大云厂商 | 互联带宽G级 并行效率50-60% |
| 微软 | Maia | Maia 100 | OpenAI绑定 | 起步晚 |
数据来源:Google Cloud TPU v7官方文档、AMD MI300X公开规格、腾讯云开发者社区《全球及中国AI芯片市场竞争格局分析》。
四个挑战者里,Google是唯一一个真正让NVIDIA感到不舒服的。TPU v7的FP8算力(4614 TFLOPS)压了B200一头(4500 TFLOPS),HBM容量持平(都是192GB),带宽略低但差距不大(7.37 vs 8.0 TB/s)。关键是价格——TPU不卖芯片,只卖云服务,TCO比NVIDIA方案低44%,这对推理客户来说太有诱惑力了。
AMD的情况比较微妙。MI300X硬件底子不差,但ROCm软件生态和CUDA比还差着一大截。大规模集群的稳定性验证也不够——云计算客户不敢拿业务去赌。收购ZT Systems是对的,但效果至少要两三年才能看到。
AWS Trainium是个反面教材。芯片定位出了问题——一开始瞄准中小企业通用场景,等大模型来了才发现互联带宽(G级)和并行效率(50-60%)根本撑不住。Anthropic的叛逃本质上是对这个战略失误的投票。
2.3 Anthropic为什么跑路
2025-2026年最有意思的一件事:Anthropic把核心算力从AWS Trainium迁到了Google TPU。
表面上看是换了个供应商,深层原因是工程经济学:
- AWS Trainium在大规模并行时实际效率只有理论值的50-60%,将近一半的算力被网络瓶颈吃掉了Trainium的互联带宽是G级(Gigabit),TPU和NVIDIA都是T级(Terabit),差了一个数量级TPU v7的推理性价比是Trainium3的近2倍整个迁移适配只花了不到两个月——说明TPU的软件成熟度远比外界以为的高
另外值得关注的是,Meta正在谈2027年直接部署Google TPU。Meta是NVIDIA的顶级客户,如果这个合作落地,对市场格局的冲击会非常大。Google正在从"自用芯片"转型为"商用硅片供应商",这个角色转变可能是未来几年最大的变量。
三、中国这边在发生什么
3.1 国产AI芯片主要玩家
2026年6月,华为在合作伙伴大会上正式发布了搭载昇腾950PR的Atlas 350加速卡,7家生态伙伴同步推出整机——国产AI推理算力算是进入了规模化商用。同时,9款国产AI芯片通过了国家安全可靠测评(I级):
| 企业 | 通过测评芯片 | 等级 | 代表意义 |
|---|---|---|---|
| 华为海思 | 昇腾310、昇腾910 | I级 | 全栈自主标杆 |
| 阿里平头哥 | 真武M530、M890 | I级 | 互联网自研芯片 |
| 海光信息 | DCU-3G | I级 | x86+GPGPU信创 |
| 壁仞科技 | 壁砺166 | I级 | 国产GPU架构 |
| 天数智芯 | KCC-V100X | I级 | 通用GPU信创 |
| 沐曦股份 | MXC600 | I级 | GPU+AI双认证 |
| 摩尔线程 | PH100 | I级 | 全功能GPU |
数据来源:腾讯云开发者社区《9款国产AI芯片通过国家安全可靠测评》。
再看企业基本面。下面是目前国产AI芯片主要玩家的矩阵:
| 企业 | 成立 | 路线 | 主力产品 | FP16算力 | 制程 | 2025营收 |
|---|---|---|---|---|---|---|
| 华为海思 | 2004 | 全栈ASIC | 昇腾910C/950PR | 352 TFLOPS | 7nm | 未单独披露 |
| 寒武纪 | 2016 | 通用GPGPU | 思元590 | 256 TFLOPS | 7nm | 64.97亿(+453%) |
| 海光信息 | 2014 | x86+GPGPU | 深算三号 | — | Chiplet | 未单独披露 |
| 壁仞科技 | 2019 | GPU | BR100 | 512 TFLOPS | 7nm | 未披露 |
| 摩尔线程 | 2020 | 全功能GPU | MTT S5000 | — | — | 15.05亿(+243%) |
| 沐曦 | 2020 | GPU+AI | 曦云C600 | — | — | 16.44亿(+121%) |
| 燧原科技 | 2018 | AI训练 | 云燧T20 | 200 TFLOPS | 7nm | 未披露 |
| 昆仑芯 | 2011 | 云端AI | K200 | 64 TFLOPS | 14nm | 未单独披露 |
数据来源:寒武纪/摩尔线程/沐曦2025年度业绩快报(上交所/港交所公告)、国产AI芯片产业深度研究报告(2025年度)、各企业公开信息。
寒武纪的数据值得单独说一下:2025年营收64.97亿元,同比增长453%,净利润20.59亿,上市以来首次年度盈利。摩尔线程营收15.05亿(+243%),沐曦16.44亿(+121%),在手订单14.3亿。国产AI芯片的商业化拐点确实到了。
3.2 差距在哪:一张性能对比表
但纸面营收是一回事,实际性能是另一回事。
| 测试场景 | 昇腾910C | 寒武纪思元590 | NVIDIA H100 | 国产最佳/H100 |
|---|---|---|---|---|
| ResNet-50训练 | 12,500 img/s | 9,800 img/s | 21,000 img/s | 59.5% |
| BERT-Large推理 | 1,850 seq/s | 1,420 seq/s | 3,200 seq/s | 57.8% |
| LLaMA-2 70B推理 | 18 tok/s | 14 tok/s | 45 tok/s | 40.0% |
| HBM带宽 | 392 GB/s | 307 GB/s | 3,350 GB/s | 11.7% |
数据来源:国产AI芯片产业深度研究报告(2025年度)私有化测试数据。注意:这些数据来自厂商公布的私有测试,非MLPerf官方成绩。
大模型推理是国产芯片最拉胯的场景——LLaMA-2 70B只能跑到H100的40%。核心原因不是算力不够,是软件:FlashAttention-2没有原生支持,KV-Cache管理效率低,算子并行度不足。这些问题不是堆晶体管能解决的。
另外三个老生常谈但确实绕不过去的问题:
制程。国产集中在7nm,中芯国际N+1良率约65%(台积电同等节点85%)。N+2(等效5nm)良率不足20%,量产遥遥无期。B200用的已经是定制4NP了。
HBM。国产HBM2e带宽只有国际水平的65%,成本还高出40%。长江存储的HBM项目2025年Q3才流片,预计2026年Q2量产——但产能爬坡至少还要18个月。
软件生态。MindSpore注册开发者82万,月活12万(14.6%)。对比PyTorch月活180万。国产芯片论坛问题解答率58%,NVIDIA开发者论坛89%。
3.3 突围的希望在哪
Triton编译器:在FlashAttention-2等核心算子上做到CUDA 95%的性能。无问芯穹的Infini-AI平台验证过了,性能损耗可以控制在8%以内。编译器是国产芯片软件生态破局最关键的一环。
四、产业链:芯片只是冰山一角
4.1 钱都让谁赚了
| 环节 | 代表 | 毛利率 | 国产化率 | 卡在哪 |
|---|---|---|---|---|
| EDA/IP | Synopsys、Cadence、华大九天 | 80%+ | <15% | 极度集中 |
| 芯片设计 | NVIDIA、华为海思、寒武纪 | 50-81% | 41%(出货量) | 架构+生态 |
| 晶圆制造 | TSMC、三星、中芯国际 | 40-60% | <10%(先进制程) | 良率+产能 |
| 先进封装 | TSMC CoWoS、长电科技 | 30-45% | ~20% | 产能紧缺 |
| HBM内存 | SK海力士、三星、美光 | 50%+ | 长江存储2026Q2 | 三大厂垄断 |
| 互联/网络 | NVIDIA NVLink、Broadcom | 60%+ | ~30% | 协议壁垒 |
| 散热/供电 | Vertiv、台达、英维克 | 30-40% | ~50% | 液冷技术 |
数据来源:各环节龙头企业年报毛利率数据、行业研究报告综合估算。国产化率为近似值。
4.2 真正的瓶颈不是算力
很多人讨论AI芯片时只盯TFLOPS。但2026年产业链上最卡脖子的其实是两样东西:
HBM。大模型推理的性能天花板不是计算,是内存带宽。H100的HBM3带宽3.35 TB/s,B200的HBM3e带宽8.0 TB/s。SK海力士2025年HBM收入占DRAM总收入的44%,2026年预计破50%。国产HBM的差距前面说了——带宽只有人家的65%,成本高40%,量产还在路上。
CoWoS先进封装。台积电CoWoS产能被NVIDIA、AMD、Google三家分得干干净净,2025年约45万片晶圆,2026年预计扩到60万片,还是不够。长电科技、通富微电在追,但2.5D/3D封装密度和良率差距不小。
AI芯片的竞争早就不是"谁设计的芯片更强"了。现在是"谁能锁定台积电CoWoS产能 + 谁能拿到足够HBM3e + 谁能建得起液冷数据中心"。单点突破没用,这是系统工程。
五、如果冲着AI芯片找工作
5.1 岗位和大概的薪资
| 方向 | 去哪 | 要会什么 | 应届(年薪) | 3-5年 | 缺人程度 |
|---|---|---|---|---|---|
| 芯片架构设计 | NVIDIA、海思、寒武纪 | 体系结构、Verilog、性能建模 | 40-60万 | 80-150万 | 极度缺 |
| AI编译器 | NVIDIA、华为、壁仞 | LLVM/MLIR、Triton、图优化 | 35-55万 | 70-120万 | 极度缺 |
| 数字IC设计/验证 | 全行业 | SystemVerilog、UVM | 30-50万 | 60-100万 | 比较缺 |
| HBM/存储 | SK海力士、长鑫、长江存储 | DRAM设计、TSV、信号完整性 | 35-55万 | 70-130万 | 极度缺 |
| AI框架开发 | 华为、百度 | PyTorch内核、分布式训练 | 30-50万 | 60-100万 | 比较缺 |
| 先进封装 | 长电科技、通富微电 | 2.5D/3D封装、热仿真 | 28-45万 | 55-90万 | 比较缺 |
薪资数据综合自招聘平台(Boss直聘、猎聘)2026年Q1-Q2公开岗位、行业猎头访谈,为税前年薪(含奖金)的大致区间。不同城市、不同公司差异较大,仅供参考。
5.2 三个值得盯的方向
AI编译器工程师
国产芯片最大的痛是软件,软件的核心是编译器。能把PyTorch模型高效地映射到国产芯片上的人,现在市场上非常抢手。华为CANN、寒武纪NeuWare、壁仞BIRENSUPA都在招。
面试大概率会问:LLVM/MLIR中间表示、算子融合、Triton语言、FlashAttention原理。
HBM/先进存储设计
HBM是AI芯片的"供血系统",也是整个产业链上最卡脖子的环节之一。SK海力士HBM收入占比从2024年的不到30%飙到2025年的44%,2026年预计超50%。长江存储HBM刚量产,长鑫也在布局,国内这个方向的人才缺口巨大。
面试大概率会问:DRAM单元设计、TSV工艺、3D堆叠热管理、JEDEC HBM标准。
AI芯片架构师
金字塔尖的岗位。需要同时懂算法(Transformer、推荐系统)和硬件(脉动阵列、片上网络、存储层次)。NVIDIA、Google TPU团队、华为昇腾是三个最好的去处。
面试大概率会问:Roofline模型、Dataflow架构、稀疏计算加速、低精度量化(FP8/FP4)、多芯片互联拓扑。
最后
回到标题的问题——AI芯片为什么是半导体皇冠上的明珠?
因为它把半导体行业所有最难的事都堆到了一起:最先进的制程、最大的die、最快的互联、最复杂的封装、最深的软件栈、最贵的流片费、最激烈的竞争。做AI芯片不是在做一个产品,是在做一个生态系统。
2026年的几个趋势:
竞争焦点从单卡性能转向系统级效率(算力 × 内存 × 互联 × 功耗密度)商业模式从卖芯片转向卖AI工厂(机柜 + 液冷 + 运维一条龙)市场重心从训练转向推理——推理的市场空间比训练大得多中国市场的核心矛盾从"能不能做"转向
"好不好用"
对找工作的人来说,AI芯片是未来十年半导体最确定的增长方向。但方向比公司重要——AI编译器、HBM设计、先进封装,这三个细分领域在未来五年会持续供不应求。
下一篇预告:《GPU王朝》——拆CUDA生态、Tensor Core微架构、NVLink协议,以及Blackwell到底改了什么。
本文关键信息来源
共研网《2026-2032年全球及中国AI芯片市场全景调查与行业发展趋势报告》;NVIDIA B200官方规格(spheron.network/NVIDIA技术文档交叉验证);Google Cloud TPU v7 Ironwood官方文档(docs.cloud.google.com);IDC中国AI加速卡市场出货数据;寒武纪/摩尔线程/沐曦2025年度业绩快报(上交所/港交所公告);腾讯云开发者社区《全球及中国AI芯片市场竞争格局分析》及《9款国产AI芯片通过国家安全可靠测评》;《国产AI芯片产业深度研究报告(2025年度)》。所有数据截至2026年6月。
864