• 正文
  • 相关推荐
申请入驻 产业图谱

算力战争:AI芯片为何是半导体皇冠上的明珠

06/22 09:31
864
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

2026年全球AI芯片销售额9580亿人民币,CAGR 18.8%,2032年预计达2.69万亿;

NVIDIA B200毛利率~81%,BOM成本约$6,500,售价$30,000-40,000;

中国AI加速卡国产占比41%,2025年出货量口径,但训练市场仍不足15%;

寒武纪2025年营收增速+453%,64.97亿元,上市后首次全年盈利。

说个数字:2025年全球头部半导体公司合计卖了超过4000亿美元的芯片,其中AI芯片1059.8亿美元。2026年预计涨到9580亿人民币。但如果你把NVIDIA从这张表里拿掉,整个AI训练市场就剩不到20%了。

再看国内。2025年中国AI加速卡出货量里,国产占比冲到41%——看着挺猛。但训练场景的国产化率不到15%,MLPerf官方榜单上至今没有一家中国芯片公司提交过成绩。差距不在纸面算力,在软件、在生态、在没人敢把真金白银的业务押上去。

做芯片十几年了,我越来越觉得AI芯片这个行当像一个黑洞——它把半导体行业所有最难的事都吸到了一起:最先进的制程、最大的die面积、最复杂的封装、最深的软件栈、最贵的流片费。这篇文章试着把这些东西拆开来看,不搞科普那一套,就是行业里的人怎么看这个市场。

一、万亿市场是怎么来的

1.1 先看一张总表

维度 2025 2026E 2032E
全球AI芯片销售额 7662亿元($1059.8亿) 9580亿元 26895亿元
全球销量 1350万颗 ~1700万颗
均价 $7,850/颗
行业毛利率 54%
CAGR 18.8%(2026-2032)
中国国产占比(出货量) 41% 持续提升 目标70%(2027)

数据来源:共研网《2026-2032年全球及中国AI芯片市场全景调查》、IDC中国AI加速卡出货追踪。注意这里的"AI芯片"口径比较宽,包含了GPU、ASIC、FPGA等所有AI加速硬件。

这组数字有三个值得注意的地方。

第一,AI芯片正在吃掉半导体行业的增量。全球半导体2025年总收入大概6200亿美元,AI相关芯片贡献了超过六分之一。而且这个比例只会往上走——手机SoC、PC CPU这些传统大品类的增速已经平了,甚至在下滑。

第二,中国市场的结构性错配。国产占比41%看着漂亮,但拆开看:绝大多数出货在推理卡和边缘场景。训练卡——就是用来训大模型的那种——国产占比不到15%。华为昇腾910C在LLaMA-2 70B推理实测中只能跑到H100的约40%。这个问题后面会展开说。

第三,平均售价7850美元。一颗AI芯片的均价相当于一辆二手飞度。NVIDIA B200单卡3-4万美元,一台DGX B200(8卡)报价约51.5万美元。全球科技巨头在AI芯片上的资本开支,已经超过了不少中等国家的年度军费。

1.2 GPU vs ASIC vs FPGA:三条路线的牌局

很多人以为AI芯片就是GPU。其实这个市场是三条技术路线在打牌,而且牌面正在变。

维度 GPU ASIC FPGA
代表 NVIDIA B200、AMD MI300X Google TPU v7、华为昇腾910C AMD Versal、Intel Agilex
FP8峰值算力 B200: 4,500 TFLOPS TPU v7: 4,614 TFLOPS 10-100 TFLOPS量级
HBM容量 192 GB 192 GB
单卡价格 $30,000-40,000 不零售(云服务形式) $5,000-15,000
软件生态 CUDA(近乎垄断) 各自为战 Vitis/HLS
强项 通用性、训练 推理效率、TCO 低延迟、可重配
虚拟化 成熟(MIG)
灵活性 ★★★★★ ★★ ★★★★

数据来源:NVIDIA官方规格表(spheron.network引用)、Google Cloud TPU v7文档(docs.cloud.google.com)。

GPU路线是当前绝对的王者,但ASIC正在从推理侧一口一口地咬走份额。Google TPU v7的FP8峰值算力(4614 TFLOPS)已经和B200(4500 TFLOPS)打平,而且据Google自己测算,跑推理任务的总拥有成本(TCO)比NVIDIA GB200方案低约44%。这个数字有多大杀伤力,后面讲Anthropic的时候会具体说。

FPGA在大模型训练里基本没戏了,但在两个地方仍然活得不错:一是自动驾驶ADAS(低延迟硬需求),二是原型验证。AMD的Versal AI Edge系列和Intel Agilex 7在这块还有稳定收入。但如果你在看AI芯片的求职方向,FPGA赛道的机会增速远不如GPU和ASIC。

一个判断:2026年最重要的趋势不是谁发了新卡,而是推理市场的战争正在从GPU手里溜走。训练市场NVIDIA还能守很久,但推理——这个比训练大得多的市场——ASIC的性价比优势越来越难忽视。

二、霸主和几个挑战者

2.1 NVIDIA的三道墙

先摆数据。B200 vs H100,这一代的提升是这样的:

规格 H100 SXM5 B200 变化
显存 80 GB HBM3 192 GB HBM3e +140%
显存带宽 3.35 TB/s 8.0 TB/s +139%
FP8(密集) ~1,979 TFLOPS 4,500 TFLOPS +127%
FP4(密集) 不支持 9,000 TFLOPS 全新
NVLink带宽 900 GB/s 1.8 TB/s +100%
TDP 700W 1,000W +43%
单卡售价 $25,000-35,000 $30,000-40,000 +15-20%

数据来源:NVIDIA B200官方规格(spheron.network/NVIDIA技术文档交叉验证)。

性能翻倍,价格涨不到两成——这种定价策略换个角度看就是:NVIDIA在给后来者留的追赶窗口越来越窄。

但NVIDIA真正的护城河不在硬件。硬件上AMD MI300X的纸面参数已经很接近了(192GB HBM3、5.3 TB/s带宽)。真正让竞争对手绝望的是三件事:

一是CUDA。全球AI开发者里用CUDA的比例超过90%。PyTorch、JAX这些主流框架对CUDA的支持是十几年磨出来的。国产芯片做CUDA兼容层,性能损耗普遍在15-30%。这不是技术问题,是时间问题——你没法用两年追上别人十五年的生态积累。

二是迭代速度。从H100(2022)到B200(2024),两年时间FP8翻了一倍多,加了FP4,功耗只涨了43%。这不是挤牙膏,这是跳代。而且B300已经在路上了——288GB HBM3e、FP4密集15000 TFLOPS、TDP 1400W。

三是系统整合。NVIDIA早就不只是卖卡了。DGX B200是一整台AI超算,从GPU到NVLink到InfiniBand到CUDA软件栈全是自己的。AMD去年收购ZT Systems,本质上就是在追这种"从硅到机柜"的交付能力。

2.2 四个在追的人

公司 武器 最强产品 优势 短板
Google TPU v7 Ironwood
FP8: 4,614 TFLOPS
192GB HBM, 7.37TB/s
TCO低44%
Anthropic百万颗订单
不卖芯片
虚拟化弱
AMD MI GPU MI300X
192GB HBM3, 5.3TB/s
ROCm开源
收购ZT Systems
软件生态差距大
AWS Trainium Trainium2 最大云厂商 互联带宽G级
并行效率50-60%
微软 Maia Maia 100 OpenAI绑定 起步晚

数据来源:Google Cloud TPU v7官方文档、AMD MI300X公开规格、腾讯云开发者社区《全球及中国AI芯片市场竞争格局分析》。

四个挑战者里,Google是唯一一个真正让NVIDIA感到不舒服的。TPU v7的FP8算力(4614 TFLOPS)压了B200一头(4500 TFLOPS),HBM容量持平(都是192GB),带宽略低但差距不大(7.37 vs 8.0 TB/s)。关键是价格——TPU不卖芯片,只卖云服务,TCO比NVIDIA方案低44%,这对推理客户来说太有诱惑力了。

AMD的情况比较微妙。MI300X硬件底子不差,但ROCm软件生态和CUDA比还差着一大截。大规模集群的稳定性验证也不够——云计算客户不敢拿业务去赌。收购ZT Systems是对的,但效果至少要两三年才能看到。

AWS Trainium是个反面教材。芯片定位出了问题——一开始瞄准中小企业通用场景,等大模型来了才发现互联带宽(G级)和并行效率(50-60%)根本撑不住。Anthropic的叛逃本质上是对这个战略失误的投票。

2.3 Anthropic为什么跑路

2025-2026年最有意思的一件事:Anthropic把核心算力从AWS Trainium迁到了Google TPU。

表面上看是换了个供应商,深层原因是工程经济学:

    AWS Trainium在大规模并行时实际效率只有理论值的50-60%,将近一半的算力被网络瓶颈吃掉了Trainium的互联带宽是G级(Gigabit),TPU和NVIDIA都是T级(Terabit),差了一个数量级TPU v7的推理性价比是Trainium3的近2倍整个迁移适配只花了不到两个月——说明TPU的软件成熟度远比外界以为的高
这件事的深层含义:AI芯片的竞争已经从"单卡跑分"变成了系统工程层面的较量。决定客户选谁的,不再是FP16 TFLOPS,而是内存容量 × 互联带宽 × 软件成熟度 × TCO。AWS在Trainium上犯的错——低估大模型对并行效率的极致需求——短期内很难修复。

另外值得关注的是,Meta正在谈2027年直接部署Google TPU。Meta是NVIDIA的顶级客户,如果这个合作落地,对市场格局的冲击会非常大。Google正在从"自用芯片"转型为"商用硅片供应商",这个角色转变可能是未来几年最大的变量。

三、中国这边在发生什么

3.1 国产AI芯片主要玩家

2026年6月,华为在合作伙伴大会上正式发布了搭载昇腾950PR的Atlas 350加速卡,7家生态伙伴同步推出整机——国产AI推理算力算是进入了规模化商用。同时,9款国产AI芯片通过了国家安全可靠测评(I级)

企业 通过测评芯片 等级 代表意义
华为海思 昇腾310、昇腾910 I级 全栈自主标杆
阿里平头哥 真武M530、M890 I级 互联网自研芯片
海光信息 DCU-3G I级 x86+GPGPU信创
壁仞科技 壁砺166 I级 国产GPU架构
天数智芯 KCC-V100X I级 通用GPU信创
沐曦股份 MXC600 I级 GPU+AI双认证
摩尔线程 PH100 I级 全功能GPU

数据来源:腾讯云开发者社区《9款国产AI芯片通过国家安全可靠测评》。

再看企业基本面。下面是目前国产AI芯片主要玩家的矩阵:

企业 成立 路线 主力产品 FP16算力 制程 2025营收
华为海思 2004 全栈ASIC 昇腾910C/950PR 352 TFLOPS 7nm 未单独披露
寒武纪 2016 通用GPGPU 思元590 256 TFLOPS 7nm 64.97亿(+453%)
海光信息 2014 x86+GPGPU 深算三号 Chiplet 未单独披露
壁仞科技 2019 GPU BR100 512 TFLOPS 7nm 未披露
摩尔线程 2020 全功能GPU MTT S5000 15.05亿(+243%)
沐曦 2020 GPU+AI 曦云C600 16.44亿(+121%)
燧原科技 2018 AI训练 云燧T20 200 TFLOPS 7nm 未披露
昆仑芯 2011 云端AI K200 64 TFLOPS 14nm 未单独披露

数据来源:寒武纪/摩尔线程/沐曦2025年度业绩快报(上交所/港交所公告)、国产AI芯片产业深度研究报告(2025年度)、各企业公开信息。

寒武纪的数据值得单独说一下:2025年营收64.97亿元,同比增长453%,净利润20.59亿,上市以来首次年度盈利。摩尔线程营收15.05亿(+243%),沐曦16.44亿(+121%),在手订单14.3亿。国产AI芯片的商业化拐点确实到了。

3.2 差距在哪:一张性能对比表

但纸面营收是一回事,实际性能是另一回事。

测试场景 昇腾910C 寒武纪思元590 NVIDIA H100 国产最佳/H100
ResNet-50训练 12,500 img/s 9,800 img/s 21,000 img/s 59.5%
BERT-Large推理 1,850 seq/s 1,420 seq/s 3,200 seq/s 57.8%
LLaMA-2 70B推理 18 tok/s 14 tok/s 45 tok/s 40.0%
HBM带宽 392 GB/s 307 GB/s 3,350 GB/s 11.7%

数据来源:国产AI芯片产业深度研究报告(2025年度)私有化测试数据。注意:这些数据来自厂商公布的私有测试,非MLPerf官方成绩。

大模型推理是国产芯片最拉胯的场景——LLaMA-2 70B只能跑到H100的40%。核心原因不是算力不够,是软件:FlashAttention-2没有原生支持,KV-Cache管理效率低,算子并行度不足。这些问题不是堆晶体管能解决的。

另外三个老生常谈但确实绕不过去的问题:

制程。国产集中在7nm,中芯国际N+1良率约65%(台积电同等节点85%)。N+2(等效5nm)良率不足20%,量产遥遥无期。B200用的已经是定制4NP了。

HBM。国产HBM2e带宽只有国际水平的65%,成本还高出40%。长江存储的HBM项目2025年Q3才流片,预计2026年Q2量产——但产能爬坡至少还要18个月。

软件生态。MindSpore注册开发者82万,月活12万(14.6%)。对比PyTorch月活180万。国产芯片论坛问题解答率58%,NVIDIA开发者论坛89%。

3.3 突围的希望在哪

Chiplet路线:用国产14nm + 先进封装,4颗die拼出等效7nm性能。壁仞BR200走通了,良率85%,成本降30%。海光深算三号用2.5D封装直连HBM2e。这是在制程被卡的情况下最现实的方案。

Triton编译器在FlashAttention-2等核心算子上做到CUDA 95%的性能。无问芯穹的Infini-AI平台验证过了,性能损耗可以控制在8%以内。编译器是国产芯片软件生态破局最关键的一环。

四、产业链:芯片只是冰山一角

4.1 钱都让谁赚了

环节 代表 毛利率 国产化率 卡在哪
EDA/IP Synopsys、Cadence、华大九天 80%+ <15% 极度集中
芯片设计 NVIDIA、华为海思、寒武纪 50-81% 41%(出货量) 架构+生态
晶圆制造 TSMC、三星、中芯国际 40-60% <10%(先进制程 良率+产能
先进封装 TSMC CoWoS、长电科技 30-45% ~20% 产能紧缺
HBM内存 SK海力士、三星、美光 50%+ 长江存储2026Q2 三大厂垄断
互联/网络 NVIDIA NVLink、Broadcom 60%+ ~30% 协议壁垒
散热/供电 Vertiv、台达、英维克 30-40% ~50% 液冷技术

数据来源:各环节龙头企业年报毛利率数据、行业研究报告综合估算。国产化率为近似值。

4.2 真正的瓶颈不是算力

很多人讨论AI芯片时只盯TFLOPS。但2026年产业链上最卡脖子的其实是两样东西:

HBM。大模型推理的性能天花板不是计算,是内存带宽。H100的HBM3带宽3.35 TB/s,B200的HBM3e带宽8.0 TB/s。SK海力士2025年HBM收入占DRAM总收入的44%,2026年预计破50%。国产HBM的差距前面说了——带宽只有人家的65%,成本高40%,量产还在路上。

CoWoS先进封装。台积电CoWoS产能被NVIDIA、AMD、Google三家分得干干净净,2025年约45万片晶圆,2026年预计扩到60万片,还是不够。长电科技、通富微电在追,但2.5D/3D封装密度和良率差距不小。

AI芯片的竞争早就不是"谁设计的芯片更强"了。现在是"谁能锁定台积电CoWoS产能 + 谁能拿到足够HBM3e + 谁能建得起液冷数据中心"。单点突破没用,这是系统工程。

五、如果冲着AI芯片找工作

5.1 岗位和大概的薪资

方向 去哪 要会什么 应届(年薪) 3-5年 缺人程度
芯片架构设计 NVIDIA、海思、寒武纪 体系结构、Verilog、性能建模 40-60万 80-150万 极度缺
AI编译器 NVIDIA、华为、壁仞 LLVM/MLIR、Triton、图优化 35-55万 70-120万 极度缺
数字IC设计/验证 全行业 SystemVerilog、UVM 30-50万 60-100万 比较缺
HBM/存储 SK海力士、长鑫、长江存储 DRAM设计、TSV、信号完整性 35-55万 70-130万 极度缺
AI框架开发 华为、百度 PyTorch内核、分布式训练 30-50万 60-100万 比较缺
先进封装 长电科技、通富微电 2.5D/3D封装、热仿真 28-45万 55-90万 比较缺

薪资数据综合自招聘平台(Boss直聘、猎聘)2026年Q1-Q2公开岗位、行业猎头访谈,为税前年薪(含奖金)的大致区间。不同城市、不同公司差异较大,仅供参考。

5.2 三个值得盯的方向

AI编译器工程师

国产芯片最大的痛是软件,软件的核心是编译器。能把PyTorch模型高效地映射到国产芯片上的人,现在市场上非常抢手。华为CANN、寒武纪NeuWare、壁仞BIRENSUPA都在招。

面试大概率会问:LLVM/MLIR中间表示、算子融合、Triton语言、FlashAttention原理。

HBM/先进存储设计

HBM是AI芯片的"供血系统",也是整个产业链上最卡脖子的环节之一。SK海力士HBM收入占比从2024年的不到30%飙到2025年的44%,2026年预计超50%。长江存储HBM刚量产,长鑫也在布局,国内这个方向的人才缺口巨大。

面试大概率会问:DRAM单元设计、TSV工艺、3D堆叠热管理、JEDEC HBM标准。

AI芯片架构师

金字塔尖的岗位。需要同时懂算法(Transformer、推荐系统)和硬件(脉动阵列、片上网络、存储层次)。NVIDIA、Google TPU团队、华为昇腾是三个最好的去处。

面试大概率会问:Roofline模型、Dataflow架构、稀疏计算加速、低精度量化(FP8/FP4)、多芯片互联拓扑。

最后

回到标题的问题——AI芯片为什么是半导体皇冠上的明珠?

因为它把半导体行业所有最难的事都堆到了一起:最先进的制程、最大的die、最快的互联、最复杂的封装、最深的软件栈、最贵的流片费、最激烈的竞争。做AI芯片不是在做一个产品,是在做一个生态系统。

2026年的几个趋势:

竞争焦点从单卡性能转向系统级效率(算力 × 内存 × 互联 × 功耗密度)商业模式从卖芯片转向卖AI工厂(机柜 + 液冷 + 运维一条龙)市场重心从训练转向推理——推理的市场空间比训练大得多中国市场的核心矛盾从"能不能做"转向

"好不好用"

对找工作的人来说,AI芯片是未来十年半导体最确定的增长方向。但方向比公司重要——AI编译器、HBM设计、先进封装,这三个细分领域在未来五年会持续供不应求。

 

下一篇预告:《GPU王朝》——拆CUDA生态、Tensor Core微架构、NVLink协议,以及Blackwell到底改了什么。

本文关键信息来源

共研网《2026-2032年全球及中国AI芯片市场全景调查与行业发展趋势报告》;NVIDIA B200官方规格(spheron.network/NVIDIA技术文档交叉验证);Google Cloud TPU v7 Ironwood官方文档(docs.cloud.google.com);IDC中国AI加速卡市场出货数据;寒武纪/摩尔线程/沐曦2025年度业绩快报(上交所/港交所公告);腾讯云开发者社区《全球及中国AI芯片市场竞争格局分析》及《9款国产AI芯片通过国家安全可靠测评》;《国产AI芯片产业深度研究报告(2025年度)》。所有数据截至2026年6月。

 

声明:本文为芯链团原创内容,仅供行业研究与求职参考,不构成投资建议。薪资数据来自招聘平台公开信息与行业访谈,为大致区间。如需引用,请注明出处。

相关推荐