Deepseek一系列大模型的发布,大家回过头来看发现昂贵的GPU突然没有那么香了。大模型的训练算力的提升不一定要疯狂的堆积英伟达的GPU,可以通过优化模型算法,提高GPU运算效率。或者开发专用领域的ASIC芯片,似乎也成了不少公司新的策略。从英伟达近段时间的股价也能看出,想靠买高价铲子,收割互联网大厂的神话似乎不可持续了。
比较下ASIC 芯片和GPU在技术特性、市场趋势、典型应用及未来展望四个维度的差异
一、技术特性:专用化与通用性的分水岭
ASIC 的核心优势
ASIC(Application Specific Integrated Circuit,专用集成电路)的设计理念是为特定任务量身定制,例如比特币挖矿的 SHA-256 算法、AI 推理的矩阵运算等。这种 “量体裁衣” 的特性使其在能效比(单位功耗算力)和成本效率上远超 GPU。
能效比:谷歌TPU v5e TPU(Tensor Processing Unit,张量处理单元)的能效比是英伟达H100 的 3 倍,适合数据中心大规模部署。
成本效率:AWS的Trainium 2 在推理任务中性价比比 H100 高 30%-40%,谷歌的TPUv5、亚马逊的 Trainium2 单位算力成本仅为英伟达 H100 的 70% 和 60%。
GPU 的核心优势
GPU通用性使其成为复杂计算任务的 “瑞士军刀”,尤其在需要灵活性的场景中。
训练任务:英伟达 H100 的 FP64 浮点性能是 ASIC 的 10 倍以上,支持万亿参数大模型训练。
软件生态:CUDA 平台拥有超过 400 万开发者,支持 PyTorch、TensorFlow 等主流框架,而 ASIC 需定制工具链(如谷歌的 XLA),开发门槛高。ASIC 灵活性差,功能固定,算法改变就需重新设计,开发难度大,软件生态单一(硬件和软件工具套件都需重新开发和适应,各家还不通用)。
通俗解释CPU和GPU的区别:
CPU和GPU都是通用芯片,可以完成多种任务。CPU是全能型选手,单核主频高,啥都能干,所以经常被拿来做主处理器。
GPU,本来是用来做图形处理(显卡)的。它的内核数量特别多(大几千个),适合做并行计算,也就是擅长同时做大量的简单计算任务(图形处理,就是同时处理大量的像素计算。)AI计算和图形计算一样,也是典型的并行计算型任务。AI计算中包括大量并行的矩阵相乘、卷积、循环层、梯度运算等任务,所以,特别适合GPU去完成。
备注:CPU和GPU可以重新编写软件代码,但是ASIC是开发类似的verilog综合和烧写比特流才能确定芯片的功能的为硬件实现方案,相对GPU和CPU更加定制化,所以ASIC的验证非常重要。
二、市场趋势:ASIC 在特定领域崛起,GPU 主导核心市场
ASIC 的增长动能
AI 推理:随着算法框架收敛(如 Transformer),ASIC 在端侧 AI(如自动驾驶、智能家居)渗透率快速提升。预计 2028 年数据中心 ASIC 市场规模将达 429 亿美元,复合增长率 45.4%。
云厂商自研:谷歌、亚马逊、微软等通过自研 ASIC(如 TPU、Trainium、Maia)优化内部工作负载,降低对英伟达的依赖。
GPU 的市场壁垒
训练市场:英伟达占据 AI 训练市场 90% 以上份额,其 Blackwell 架构支持 1.8 万亿参数模型训练,且 NVLink 6 技术实现 72 卡集群无缝互联。
生态护城河:CUDA 生态系统的成熟度(如 TensorRT 推理优化、Megatron 分布式训练)难以被替代,企业迁移成本极高。
三、典型应用:ASIC 与 GPU 的主战场
| 领域 | ASIC 代表案例 | GPU 代表案例 |
| AI 推理 | 谷歌 TPU v5e (5 万卡集群) | 英伟达 H100
(支持多模态模型推理) |
| 自动驾驶 | 特斯拉 FSD 芯片 (能效比优于Orin) | 英伟达 Thor
(支持端到端大模型) |
| 加密货币 | 比特大陆 Antminer (SHA-256 效率提升100 倍) | AMD Radeon
(灵活支持算法切换) |
| 科学计算 | 博通定制加速器
用于量子模拟 |
英伟达 Grace Blackwell
(超算领域) |
中国大陆本土GPU 制造能力增强。近年来,中国国内的许多GPU企业开始崭露头角。通过持续的投入和努力,国产GPU在性能、功能和应用领域等方面都有了提升,逐渐赢得了市场的认可和用户的信任。国产GPU不仅在传统图形处理领域取得了进展,也能够在人工智能、高性能计算等新兴领域展现出一定的竞争力。
主要厂商包括景嘉微、寒武纪、海光信息、天数智芯等。
国内GPU产品统计
| 企业名称 | 主要GPU产品类型 | 上市进度 |
| 景嘉微 | JM5系列、JM7系列、JM9系列GPU、景宏系列 | 已上市(A股) |
| 寒武纪 | 思元270、思元290、思元370AI芯片 | 已上市(A股) |
| 海光信息 | 海光DCU(GPGPU) | 已上市(A股) |
| 龙芯中科 | 9A1000 GPU(入门级显卡,用于图形处理和AI推理) | 已上市(科创板) |
| 壁仞科技 | BR100、BR104 | IPO辅导备案登记中 |
| 原科技 | S60、云燧T20等AI加速卡 | IPO辅导备案登记中 |
| 摩尔线程 | MTT S系列显卡、MTT系列GPU芯片 | A股上市辅导中 |
| 天数智芯 | 天垓100、智铠100等 | 未上市 |
| 中微电 | 南风一号、南风二号 | 未上市 |
| 瀚博半导体 | SV102 AI推理芯片、SG100 GPU等 | 未上市 |
| 芯动科技 | 风华1号、风华2号GPU等 | 未上市 |
| 沐曦集成 | MXN系列GPU(曦思,用于AI推理) MXC系列GPU(曦云,用于AI训练及通用计算) MXG系列GPU(曦彩,用于图形渲染) |
未上市 |
| 登临科技 | Goldwasser(GPGPU) | 未上市 |
四、未来展望:共生与融合
短期(1-3 年)
ASIC:在推理、边缘计算、特定行业(如金融风控、医疗影像)快速渗透,云厂商自研 ASIC 占比提升至 30%。
GPU:继续主导训练市场,Blackwell 架构推动超算和 AI 融合(如气候模拟、新药研发)。
长期(5 年以上)
技术融合:英伟达推出 Grace CPU+Blackwell GPU 的超级芯片,而博通开发支持动态重构的 ASIC,两者边界趋于模糊。
ASIC 和 GPU 的竞争本质是 “效率” 与 “灵活性” 的权衡 。ASIC 在特定场景的优势无法撼动 GPU 的生态壁垒,而 GPU 的通用性使其在复杂任务中难以被替代。未来,两者将通过混合架构(如 GPU+ASIC 加速卡)和异构计算(如 CUDA 与定制指令集协同)实现最优资源配置。对于企业而言,选择 ASIC 需满足三个条件:任务明确、规模足够大、算法稳定,否则 GPU 仍是更优解。
结论:
ASIC 芯片与 GPU 的关系并非简单的替代,而是长期共存、互补发展的格局。
6966