• 正文
  • 相关推荐
申请入驻 产业图谱

全球主流算力芯片参数汇总、整理、对比

05/20 16:34
6728
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

实习生作者:王华斌 上海纽约大学在读

本文中表格内容详细数据的原始文档,我放到了知识星球的云盘上供会员使用。如果您对此类数据有兴趣,欢迎加入我的知识星球后获取 -- 文章最后有加入方式

特别申明:本文数据系作者个人从各种网络渠道获取,可能存在部分信息错误,与事实有出入,需要读者谨慎参考

前言:

AI大模型能力的快速提升(如Qwen3、Llama4的多模态升级与逻辑推理优化)正推动AI从辅助工具向核心生产力渗透。而算力芯片的性能对大模型的训练、推理至关重要。本文通过统计全球主要算力芯片的算力、显存互联带宽指标,对比海外第三方设计公司、海外大厂自研和国产芯片的单卡性能。不考虑软件(如CUDA)、Scale out架构(如华为CloudMatrix超节点)和成本。华为芯片缺少官方公布数据,所有暂时没有收录。

英伟达英特尔AMD

英伟达的芯片覆盖最广,包括高性能的H100、H200和B200,以及较早的V100、P100等,其产品线在算力和迭代速度均占据领先地位。英特尔的AI芯片为Guadi系列(如Guadi3),而AMD是MI系列(如MI325X、MI250X)。从时间线看,英伟达迭代速度最快,2023年后密集发布新品;AMD的MI300系列和英特尔的Guadi3则瞄准了同期的英伟达B200竞争。功耗设计上,英伟达B200的圆圈显著更大,凸显其高功耗高性能定位。

美国互联网大厂

谷歌的TPU系列最为成熟,从v2到v7p逐步提升算力,其中v5p和v7p的能效比设计突出;亚马逊的Trainium3、Meta的MTIA v2和微软的Maia 100是较新的竞争者,发布时间集中在2023-2024年。这些芯片的算力普遍低于英伟达旗舰(如TPU v7p的FP16性能接近B200),但功耗更低(圆圈较小),反映其优化能效的特点。谷歌的TPU发布时间跨度大,显示其长期投入,而Meta、亚马逊和微软的布局更晚但速度迅猛。

国产芯片

寒武纪的思元590、海光信息的BW100和沐曦科技的曦云C500在算力和功耗上领先,发布时间集中于2023-2024年。整体来看,国产芯片的算力水平与英伟达中端产品(如A100)接近,但功耗控制更分散(圆圈大小差异大),反映技术路线多样性。发布时间显示2020年后中国AI芯片进入爆发期,但国际巨头仍保持性能代差。

一、算力指标

1. 制程:

海外:

第三方设计公司:为后续产品制程的升级预留了空间。英伟达最新的Blackwell系列使用了TSMC 4NP,相当于4nm高性能版本。AMD、英特尔最新产品的制程都是5nm。Groq为了追求性价比,使用GlobalFoundries的14nm。

大厂自研:谷歌最新的TPU Ironwood(TPU v7p)和亚马逊的Trainium3都使用了最先进的3nm,Meta和微软使用了5nm。

中国大陆:

国内厂商在受到制裁之前,旗舰产品绝大多数都是使用TSMC 7nm。目前正在转向中芯国际7nm。燧原科技的所有产品都采用GlobalFoundries 的12nm工艺。

2. 晶体管数量/芯片面积/晶体管密度:

芯片面积:由于掩膜版的尺寸,单个芯片最大曝光区面积限制为858mm²,可以通过Chiplet构建更大的芯片。

晶体管密度:更高的晶体管密度允许在相同芯片面积内集成更多计算核心,直接提升并行计算能力。

海外:

第三方设计公司:英伟达的B200首次使用了Chiplet技术,包含了两个B100 Die,两个Die通过NV-HBI互联,芯片面积达到1600mm²,晶体管密度达到130百万/mm²。AMD的芯片一直都采用Chiplet,由许多小芯粒组成大芯片,芯粒之间通过Infinity Fabric互联.

大厂自研:谷歌最新的TPU Ironwood(TPU v7p)晶体管密度达到了308 百万/mm²,是英伟达Blackwell的两倍多。TPU v6e和微软的Maia 100分别达到110百万/mm²和128百万/mm²。

中国大陆:

国内厂商多使用Chiplet技术,增强算力、降低成本。燧原科技2021年发布的邃思2.0的芯片面积3306 mm²,采用GlobalFoundries 12nm工艺,号称中国最大AI单芯片,达到了日月光 2.5D 封装的极限。

3. 各浮点运算次数

海外:

第三方设计公司英伟达Blackwell系列的推出,巩固了其在深度学习训练和推理的领导地位。GB200的FP16算力达到5000TFLOPS,相比于H200提升了5倍以上。AMD的MI325X为1300TFLOPS,英特尔Gaudi3为1835TFLOPS,谷歌TPU Ironwood(TPU v7p)为2307TFLOPS,与GB200都有明显差距。同时,Blackwell通过第二代Transformer引擎和定制Tensor Core,首次在硬件上实现了FP4数据类型的直接处理

H20/H800H20基于H200进行性能裁剪,通过牺牲计算性能换取合规性。H20的FP16算力为148 TFLOPS,FP8算力为296 TFLOPS,仅为H200的15%左右。H800与H100算力指标保持一致,根据美国商务部2023年10月17日发布的出口管制新规,H800 被列入禁售名单。

大厂自研:多数ASIC聚焦于低精度领域,除谷歌外都处于起步阶段。谷歌最新的TPU Ironwood(TPU v7p)是首款专为推理而设计的加速器,FP16算力达2307TFLOPS,比前代提升了两倍多。亚马逊的Trainium3预计FP16算力达1310TFLOPS,是Trainium2的两倍。

中国大陆:

除华为外,FP16算力能达到300TFLOPS以上的国产芯片,只有寒武纪的思元590和海光信息的BW100。壁仞科技在2022年推出的BR100的FP16算力能达到1024TFLOPS,但因受到制裁,无法量产落地。

4. 功耗/能效比

能效比:FP16运算次数/功耗(TFLOPS/W)

海外:

第三方设计公司:英伟达Blackwell的能效比在所有架构里面最高,体现英伟达超强的硬件设计能力。尽管GB200的功耗达到了2700W,但能效比仍能达到1.9,在业内处于领先地位。

大厂自研:多数ASIC的功耗在700W以下,达到降本目的。但能效比仍低于英伟达的GPGPU。

中国大陆:

根据不完全统计,国产芯片的功耗绝大多数都在500W以下,能效比低于1。

二、显存指标

1. 显存/显存带宽/显存容量

海外:

绝大多数海外厂商最新产品都配备HBM3e,因堆叠层数、频率和HBM堆栈数量的配置不同,显存带宽和容量不同。英伟达从H200开始使用HBM3e。GB200的显存带宽达16TB/s,容量达384GB,是H200的三倍多。H20和H800的显存分别与H200和H100保持一致,远高于国产芯片。

中国大陆:

因受到制裁,绝大多数国产芯片最新产品使用HBM2e。除采用HBM外,还有国产芯片使用GDDR和LPDDR。如昆仑芯二代芯片和摩尔线程S4000、S3000均使用GDDR6,寒武纪MLU370系列均使用LPDDR5

2. 算术强度

算术强度:总浮点运算次数/内存带宽(FLOPS/Byte) 算术强度过高,说明内存带宽过低,芯片运行有内存瓶颈。

海外:

英伟达H100的算术强度较高,接近600FLOPS/Byte,随着HBM3e的使用,算术强度在H200和Blackwell系列逐渐降低。其他厂商因使用HBM3e且算力不高,算术强度都较低。

中国大陆:

国产芯片的算力水平较低,所以尽管显存带宽低,算术强度都较低,不存在带宽瓶颈。

三、互联带宽

双向互联带宽=每条链路单向带宽x链路数x 2

海外:

绝大多数厂商都开发了专有协议,带宽普遍在500GB/s以上。英伟达的NVLink5相比于NVLink4带宽翻倍,达到了1800GB/s。英伟达的NVLink依然有较强壁垒。AMD的Infinity Fabric4达到896GB/s。谷歌的ICI Links最高能达到672GB/s。H20使用NVLink4,带宽达到900GB/s,相较于国产芯片有较大优势。H800和A800都使用特供版NVLink,带宽只有400GB/s。

 中国大陆:

国产芯片的互联能力普遍较弱,除华为外,带宽普遍在400GB/s以下。寒武纪思元270和思元590采用的MLU-Link,带宽分别达到600GB/s和372GB/s。海光信息BW100和沐曦科技的曦云C500的互联带宽能达到400GB/s。

References:

[1]英伟达:公司官网https://www.nvidia.cn/

CSDN博客https://blog.csdn.net/qq_39815222/article/details/136897603

墨天轮https://www.modb.pro/db/1830075219425452032

[2]AMD公司官网https://www.amd.com/zh-cn.html

[3]英特尔:公司官网https://www.intel.cn/content/www/cn/zh/homepage.html

[4]GroqSacra.comhttps://sacra.com/c/groq/

[5]谷歌:The Next Platform https://www.nextplatform.com/2025/04/09/with-ironwood-tpu-google-pushes-the-ai-accelerator-to-the-floor/

[6]亚马逊:Semianalysis https://semianalysis.com/2024/12/03/amazons-ai-self-sufficiency-trainium2-architecture-networking/

[7]Meta公司官网 https://ai.meta.com/blog/next-generation-meta-training-inference-accelerator-AI-MTIA/

[8]微软:Semianalysishttps://semianalysis.com/2023/11/15/microsoft-infrastructure-ai-and-cpu/

[9]寒武纪:公司官网https://www.cambricon.com/

格隆汇https://finance.sina.com.cn/wm/2025-01-19/doc-inefpcsy0554481.shtml

北方算网https://zhuanlan.zhihu.com/p/18044815862

[10]昆仑芯:电子元件采购网https://www.ameya360.com/hangye/108036.html

电子元器件采购网https://www.ameya360.com/hangye/108036.html

知乎https://zhuanlan.zhihu.com/p/603925398

捷睿星云http://www.jieruixingyun.com/busniess/intro/

百度昆仑芯Product Briefhttps://paddlelite-demo.bj.bcebos.com/devices/baidu/K100_K200_spec.pdf

[11]平头哥:公司官网https://img.102.alibaba.com/1622193035686/9898014ba4eb8adfd3f31db3b2cf26f3.pdf?spm=a2ouz.12987056.0.0.68229352l5LGSa&file=9898014ba4eb8adfd3f31db3b2cf26f3.pdf

集微网https://www.sohu.com/a/374479009_166680

[12]海光信息:鲸起Studiohttps://mp.weixin.qq.com/s/Oq3HZxFwOJuLTuwzj9RYQw

北方算网https://zhuanlan.zhihu.com/p/18044815862

华西证券研究所http://www.qdatis.com/files/20250207/447df7d38b08845b0b7fdf376030fd19.pdf

格隆汇https://finance.sina.com.cn/wm/2025-01-19/doc-inefpcsy0554481.shtml

[13]燧原科技: 美通社https://www.prnasia.com/story/296402-1.shtml

与非网https://www.eefocus.com/article/498969.html

智东西https://chedongxi.com/news/21214.html

IT之家https://news.qq.com/rain/a/20211208A02G3B00

[14]摩尔线程:公司官网https://www.mthreads.com/product/S3000

TechPowerUphttps://www.techpowerup.com/316881/moore-threads-launches-mtt-s4000-48-gb-gpu-for-ai-training-inference-and-presents-1000-gpu-cluster

[15]沐曦科技:CSDN博客https://blog.csdn.net/qq_23934063/article/details/132473834

飞桨https://www.paddlepaddle.org.cn/support/news?action=detail&id=3334

[16]壁仞科技:第一财经https://m.yicai.com/news/101501217.html

电子工程专辑https://www.eet-china.com/mp/a152602.html

[17]天数智芯:电子发烧友https://www.elecfans.com/d/2253998.html

安信力http://www.anssionic.com/sgproducts_view.asp?main_id=20&small_id=71&id=244

相关推荐