2025 年成为国产 GPU 产业的爆发节点。在生成式 AI 算力需求激增与供应链自主化诉求的双重驱动下,摩尔线程、沐曦等企业密集完成 IPO,天数智芯港股上市,昆仑芯也加速资本化进程。下面就来详细看看GPU厂商以及核心的GPU知识。
华为昇腾:云端训推的 “算力基石”
作为国产 GPU 的领军者,华为昇腾系列聚焦超大规模 AI 训练与推理场景,2025 年主推 910C、950PR 与 950DT 三款芯片:
昇腾 910C:采用 7nm + 制程与 Chiplet 架构,FP16 峰值算力达 800 TFLOPS,INT4 精度下 AI 算力突破 4096 TOPS。配备 80GB HBM3 显存,带宽达 2TB/s,典型功耗 350W,支持 16 芯片 NVLink-like互联,适配万亿参数大模型训练。
昇腾 950PR:定位推理优化型产品,FP32 算力 200 TFLOPS,INT8 算力1600 TOPS。显存配置升级至 128GB HBM3e,带宽 1.6TB/s,功耗控制在 250W 以内,重点面向运营商智算平台的边缘推理场景
昇腾 950DT:专为数据中心高密度部署设计,通过多芯集成实现 FP16 算力 1200 TFLOPS,显存总容量达 160GB,采用液冷散热方案将功耗密度控制在 400W / 卡,支持十万卡级集群扩展。
寒武纪:架构迭代的 “智能加速”寒武纪 2025 年旗舰产品思元 690 延续 MLUv03 架构优势,在性能功耗比上实现突破:制程工艺升级至 5nm,FP16 峰值算力 600 TFLOPS,INT4 精度算力 3072 TOPS,较上一代思元 290 提升 3 倍。配备 64GB HBM3 显存,带宽 1.2TB/s,支持 MLU-Link 4.0 互联技术,单集群可扩展至 256 卡。典型功耗 280W,在 ResNet-50 推理任务中能效比达 5.2 TOPS/W,超过英伟达 A100 的 4.8 TOPS/W水平。
沐曦股份:全栈自主的 “训推一体”沐曦作为 AMD 系代表企业,2025 年 7 月发布的曦云 C600 成为国产旗舰标杆:核心参数:采用 5nm 制程与自主 GPU IP 架构,FP8 峰值算力 1600 TFLOPS,支持 FP4-FP64 全精度计算。配备 144GB HBM3e 显存,带宽突破 3TB/s,为国内同类型产品最高。扩展能力:支持 MetaXLink 超节点技术,单节点可互联 32 芯片,集群算力线性扩展效率达 95%。功耗与形态:PCIe 5.0 与 OAM 双形态设计,典型功耗 375W,内置 ECC/RAS 安全模块,已批量应用于金融、政务智算中心。
摩尔线程:生态兼容的 “全功能突破”摩尔线程基于第五代 “花港” 架构推出多款新品,其中 MTT S6000(“华山” 芯片商用型号)表现突出:算力与精度:FP16 算力 800 TFLOPS,FP8 算力 1600 TFLOPS,新增 MTFP6/MTFP4 低精度格式支持,为国内首家实现 FP4 商用的厂商。存储与互联:128GB HBM3e 显存,带宽 2.8TB/s,通过 MTLink 技术支持十万卡集群扩展,万卡集群算力达 10 EFlops,可支撑万亿参数模型训练。能效优势:算力密度较上一代提升 50%,能效比优化 10 倍,单卡功耗 320W,在 DeepSeek R1 模型推理中 Decode 吞吐突破 1000 tokens/s。
(五)昆仑芯:百度生态的 “场景深耕”昆仑芯 2025 年主推 M300 芯片,聚焦互联网 AI 推理场景:采用 7nm 制程,INT8 峰值算力 2048 TOPS,FP16 算力 512 TFLOPS。配备 96GB HBM3 显存,带宽 1.8TB/s,支持 PCIe 5.0 x16 接口。典型功耗 250W,与百度飞桨框架深度适配,在文生图任务中推理延迟低至 80ms。天数智芯:高端计算的 “科学赋能”天垓 200 作为面向科学计算的 GPGPU 产品:采用 7nm Chiplet 设计,FP64 双精度算力 400 TFLOPS,居国产 GPU 首位。配备 128GB HBM3 显存,带宽 2TB/s,支持 NVMe over Fabrics 存储扩展。典型功耗 400W,已应用于流体力学模拟、分子动力学等高性能计算场景
分析各家厂商产品,技术突破与产业趋势呈现
1. 制程与架构:5nm 制程成为旗舰标配,Chiplet 技术广泛应用,沐曦、壁仞等通过多芯互联突破单芯片性能瓶颈。
2. 能效革命:摩尔线程 “花港” 架构将能效比提升 10 倍,曦云 C600、昇腾 910C 等产品均实现 3W/TFLOPS 以下的能效水平。
3. 生态兼容:MUSA(摩尔线程)、MXMACA(沐曦)等软件栈均实现 CUDA 兼容,TensorFlow、PyTorch 迁移成本降低至 10% 以内。
4. 场景分化:云端训推(昇腾、沐曦)、图形渲染(摩尔线程 “庐山” 芯片)、科学计算(天垓 200)的产品定位日益清晰。
下面简单分享一些重点的GPU知识,详细的文档可以文末获取。
1. GPU 与显卡的关系:显卡是一个包含 GPU、显存、散热模块、供电模块等组件的完整硬件设备。GPU 是显卡的核心部件,负责图形计算和处理;显存用于存储图形数据;散热模块保证 GPU 在高负载运行时的温度稳定;供电模块为整个显卡提供电力支持。可以说,GPU 是显卡实现图形处理功能的关键所在。
2. GPU 的主要功能:除了图形渲染外,GPU 还具有通用计算能力。在图形渲染方面,它负责处理 3D 模型的顶点变换、光照计算、纹理映射、光栅化等操作,将虚拟的 3D 场景转换为屏幕上的 2D 图像。在通用计算领域,GPU 能够加速深度学习模型训练、科学计算(如分子模拟、流体力学计算)、数据加密和解密等任务,通过并行计算大量数据来提高计算效率。
3. GPU 与 CPU 的设计差异:CPU 的设计侧重于复杂指令的串行处理,拥有强大的控制单元和较少但高性能的核心,能够灵活地处理各种类型的任务,但在面对大规模并行计算时效率较低。而 GPU 则设计了大量的简单核心,专注于并行计算,通过同时处理大量数据来提高整体计算速度,适合处理高度并行化的任务,如图形渲染和深度学习中的矩阵运算,但在处理复杂逻辑控制和串行任务时不如 CPU。
4. NVIDIA 的主要 GPU 架构:NVIDIA 推出了一系列具有代表性的 GPU 架构,如 Fermi架构开启了 GPU 通用计算的新时代,引入了统一的 CUDA 核心架构;Kepler 架构在性能和能效比上有显著提升,增强了对双精度计算的支持;Maxwell 架构进一步优化了能耗比,同时改进了内存子系统;Pascal 架构增加了对深度学习的硬件加速支持,引入了张量核心(Tensor Core);Volta 架构在深度学习训练性能上有重大突破,进一步提升了张量核心的性能;Turing 架构强化了光线追踪技术,为游戏和专业图形领域带来更逼真的光影效果;Ampere 架构在计算性能、显存带宽等方面继续提升,广泛应用于数据中心、AI 训练等领域;Ada Lovelace 架构则进一步提升了光线追踪和深度学习性能,为 4K 及以上分辨率的游戏和复杂 AI 任务提供强大支持。
5.AMD 的主要 GPU 架构:AMD 的 GPU 架构也在不断发展,如 GCN(Graphics CoreNext)架构具有高度并行的计算单元,在通用计算和图形处理方面都有良好表现,被广泛应用于 AMD 的多个产品系列中。RDNA(Radeon DNA)架构是 AMD 针对游戏市场推出的全新架构,它通过优化计算单元、提升时钟频率和改进显存管理等方式,显著提高了GPU 的性能和能效比。RDNA 2 架构在此基础上进一步升级,引入了硬件加速光线追踪技术和可变速率着色等先进特性,提升了游戏的视觉效果和性能表现。
6. GPU 架构中的缓存机制:为了提高数据访问速度,GPU 架构中通常包含多级缓存。常见的有 L1 缓存和 L2 缓存。L1 缓存位于 GPU 核心内部,速度非常快,但容量相对较小,用于存储核心近期可能频繁访问的数据和指令。L2 缓存则位于多个核心共享的区域,容量较大,但速度略慢于 L1 缓存,它作为 L1 缓存的补充,存储更广泛的数据。缓存机制的存在减少了 GPU 核心对显存的直接访问次数,提高了数据读取和写入的效率,从而提升了 GPU 的整体性能。
7.GPU 性能指标-核心频率:核心频率是指 GPU 核心的工作频率,单位通常为 MHz 或 GHz。它类似于CPU 的主频,反映了 GPU 核心在单位时间内能够执行的指令周期数。一般来说,核心频率越高,GPU 在相同时间内完成的计算任务就越多,图形处理或计算性能也就越强。但核心频率并非越高越好,过高的频率可能导致 GPU 发热严重,稳定性下降,因此需要在频率和稳定性、功耗之间进行平衡。不同型号的 GPU,其核心频率会有所不同,例如 NVIDIA GeForce RTX 3060 的基础核心频率可能在 1320MHz 左右,而在 Boost 模式下可以提升到 1777MHz。
8.GPU 性能指标- 显存频率:显存频率是指显存工作的频率,单位同样为 MHz 或 GHz。它决定了显存与GPU 核心之间数据传输的速度。显存频率越高,显存能够在单位时间内读写的数据量就越大,这对于需要快速处理大量图形数据的应用(如高分辨率游戏、专业图形设计)非常重要。
常见的显存类型如 GDDR6,其频率可以达到 14GHz 甚至更高。与核心频率类似,显存频率也受到散热和稳定性等因素的限制,过高的频率可能引发数据传输错误。
更多芯片行业精彩,点赞、收藏、关注一起学习、成长
392