GPU这么火，看看100 个 GPU 核心基础技术！

2025 年成为国产 GPU 产业的爆发节点。在生成式 AI 算力需求激增与供应链自主化诉求的双重驱动下，摩尔线程、沐曦等企业密集完成 IPO，天数智芯港股上市，昆仑芯也加速资本化进程。下面就来详细看看GPU厂商以及核心的GPU知识。

华为昇腾：云端训推的 “算力基石”

作为国产 GPU 的领军者，华为昇腾系列聚焦超大规模 AI 训练与推理场景，2025 年主推 910C、950PR 与 950DT 三款芯片：

昇腾 910C：采用 7nm + 制程与 Chiplet 架构，FP16 峰值算力达 800 TFLOPS，INT4 精度下 AI 算力突破 4096 TOPS。配备 80GB HBM3 显存，带宽达 2TB/s，典型功耗 350W，支持 16 芯片 NVLink-like互联，适配万亿参数大模型训练。

昇腾 950PR：定位推理优化型产品，FP32 算力 200 TFLOPS，INT8 算力1600 TOPS。显存配置升级至 128GB HBM3e，带宽 1.6TB/s，功耗控制在 250W 以内，重点面向运营商智算平台的边缘推理场景

昇腾 950DT：专为数据中心高密度部署设计，通过多芯集成实现 FP16 算力 1200 TFLOPS，显存总容量达 160GB，采用液冷散热方案将功耗密度控制在 400W / 卡，支持十万卡级集群扩展。

寒武纪：架构迭代的 “智能加速”寒武纪 2025 年旗舰产品思元 690 延续 MLUv03 架构优势，在性能功耗比上实现突破：制程工艺升级至 5nm，FP16 峰值算力 600 TFLOPS，INT4 精度算力 3072 TOPS，较上一代思元 290 提升 3 倍。配备 64GB HBM3 显存，带宽 1.2TB/s，支持 MLU-Link 4.0 互联技术，单集群可扩展至 256 卡。典型功耗 280W，在 ResNet-50 推理任务中能效比达 5.2 TOPS/W，超过英伟达 A100 的 4.8 TOPS/W水平。

沐曦股份：全栈自主的 “训推一体”沐曦作为 AMD 系代表企业，2025 年 7 月发布的曦云 C600 成为国产旗舰标杆：核心参数：采用 5nm 制程与自主 GPU IP 架构，FP8 峰值算力 1600 TFLOPS，支持 FP4-FP64 全精度计算。配备 144GB HBM3e 显存，带宽突破 3TB/s，为国内同类型产品最高。扩展能力：支持 MetaXLink 超节点技术，单节点可互联 32 芯片，集群算力线性扩展效率达 95%。功耗与形态：PCIe 5.0 与 OAM 双形态设计，典型功耗 375W，内置 ECC/RAS 安全模块，已批量应用于金融、政务智算中心。

摩尔线程：生态兼容的 “全功能突破”摩尔线程基于第五代 “花港” 架构推出多款新品，其中 MTT S6000（“华山” 芯片商用型号）表现突出：算力与精度：FP16 算力 800 TFLOPS，FP8 算力 1600 TFLOPS，新增 MTFP6/MTFP4 低精度格式支持，为国内首家实现 FP4 商用的厂商。存储与互联：128GB HBM3e 显存，带宽 2.8TB/s，通过 MTLink 技术支持十万卡集群扩展，万卡集群算力达 10 EFlops，可支撑万亿参数模型训练。能效优势：算力密度较上一代提升 50%，能效比优化 10 倍，单卡功耗 320W，在 DeepSeek R1 模型推理中 Decode 吞吐突破 1000 tokens/s。

（五）昆仑芯：百度生态的 “场景深耕”昆仑芯 2025 年主推 M300 芯片，聚焦互联网 AI 推理场景：采用 7nm 制程，INT8 峰值算力 2048 TOPS，FP16 算力 512 TFLOPS。配备 96GB HBM3 显存，带宽 1.8TB/s，支持 PCIe 5.0 x16 接口。典型功耗 250W，与百度飞桨框架深度适配，在文生图任务中推理延迟低至 80ms。天数智芯：高端计算的 “科学赋能”天垓 200 作为面向科学计算的 GPGPU 产品：采用 7nm Chiplet 设计，FP64 双精度算力 400 TFLOPS，居国产 GPU 首位。配备 128GB HBM3 显存，带宽 2TB/s，支持 NVMe over Fabrics 存储扩展。典型功耗 400W，已应用于流体力学模拟、分子动力学等高性能计算场景

分析各家厂商产品，技术突破与产业趋势呈现

1. 制程与架构：5nm 制程成为旗舰标配，Chiplet 技术广泛应用，沐曦、壁仞等通过多芯互联突破单芯片性能瓶颈。

2. 能效革命：摩尔线程 “花港” 架构将能效比提升 10 倍，曦云 C600、昇腾 910C 等产品均实现 3W/TFLOPS 以下的能效水平。

3. 生态兼容：MUSA（摩尔线程）、MXMACA（沐曦）等软件栈均实现 CUDA 兼容，TensorFlow、PyTorch 迁移成本降低至 10% 以内。

4. 场景分化：云端训推（昇腾、沐曦）、图形渲染（摩尔线程 “庐山” 芯片）、科学计算（天垓 200）的产品定位日益清晰。

下面简单分享一些重点的GPU知识，详细的文档可以文末获取。

1. GPU 与显卡的关系：显卡是一个包含 GPU、显存、散热模块、供电模块等组件的完整硬件设备。GPU 是显卡的核心部件，负责图形计算和处理；显存用于存储图形数据；散热模块保证 GPU 在高负载运行时的温度稳定；供电模块为整个显卡提供电力支持。可以说，GPU 是显卡实现图形处理功能的关键所在。

2. GPU 的主要功能：除了图形渲染外，GPU 还具有通用计算能力。在图形渲染方面，它负责处理 3D 模型的顶点变换、光照计算、纹理映射、光栅化等操作，将虚拟的 3D 场景转换为屏幕上的 2D 图像。在通用计算领域，GPU 能够加速深度学习模型训练、科学计算（如分子模拟、流体力学计算）、数据加密和解密等任务，通过并行计算大量数据来提高计算效率。

3. GPU 与 CPU 的设计差异：CPU 的设计侧重于复杂指令的串行处理，拥有强大的控制单元和较少但高性能的核心，能够灵活地处理各种类型的任务，但在面对大规模并行计算时效率较低。而 GPU 则设计了大量的简单核心，专注于并行计算，通过同时处理大量数据来提高整体计算速度，适合处理高度并行化的任务，如图形渲染和深度学习中的矩阵运算，但在处理复杂逻辑控制和串行任务时不如 CPU。

4. NVIDIA 的主要 GPU 架构：NVIDIA 推出了一系列具有代表性的 GPU 架构，如 Fermi架构开启了 GPU 通用计算的新时代，引入了统一的 CUDA 核心架构；Kepler 架构在性能和能效比上有显著提升，增强了对双精度计算的支持；Maxwell 架构进一步优化了能耗比，同时改进了内存子系统；Pascal 架构增加了对深度学习的硬件加速支持，引入了张量核心（Tensor Core）；Volta 架构在深度学习训练性能上有重大突破，进一步提升了张量核心的性能；Turing 架构强化了光线追踪技术，为游戏和专业图形领域带来更逼真的光影效果；Ampere 架构在计算性能、显存带宽等方面继续提升，广泛应用于数据中心、AI 训练等领域；Ada Lovelace 架构则进一步提升了光线追踪和深度学习性能，为 4K 及以上分辨率的游戏和复杂 AI 任务提供强大支持。

5.AMD 的主要 GPU 架构：AMD 的 GPU 架构也在不断发展，如 GCN（Graphics CoreNext）架构具有高度并行的计算单元，在通用计算和图形处理方面都有良好表现，被广泛应用于 AMD 的多个产品系列中。RDNA（Radeon DNA）架构是 AMD 针对游戏市场推出的全新架构，它通过优化计算单元、提升时钟频率和改进显存管理等方式，显著提高了GPU 的性能和能效比。RDNA 2 架构在此基础上进一步升级，引入了硬件加速光线追踪技术和可变速率着色等先进特性，提升了游戏的视觉效果和性能表现。

6. GPU 架构中的缓存机制：为了提高数据访问速度，GPU 架构中通常包含多级缓存。常见的有 L1 缓存和 L2 缓存。L1 缓存位于 GPU 核心内部，速度非常快，但容量相对较小，用于存储核心近期可能频繁访问的数据和指令。L2 缓存则位于多个核心共享的区域，容量较大，但速度略慢于 L1 缓存，它作为 L1 缓存的补充，存储更广泛的数据。缓存机制的存在减少了 GPU 核心对显存的直接访问次数，提高了数据读取和写入的效率，从而提升了 GPU 的整体性能。

7.GPU 性能指标-核心频率：核心频率是指 GPU 核心的工作频率，单位通常为 MHz 或 GHz。它类似于CPU 的主频，反映了 GPU 核心在单位时间内能够执行的指令周期数。一般来说，核心频率越高，GPU 在相同时间内完成的计算任务就越多，图形处理或计算性能也就越强。但核心频率并非越高越好，过高的频率可能导致 GPU 发热严重，稳定性下降，因此需要在频率和稳定性、功耗之间进行平衡。不同型号的 GPU，其核心频率会有所不同，例如 NVIDIA GeForce RTX 3060 的基础核心频率可能在 1320MHz 左右，而在 Boost 模式下可以提升到 1777MHz。

8.GPU 性能指标- 显存频率：显存频率是指显存工作的频率，单位同样为 MHz 或 GHz。它决定了显存与GPU 核心之间数据传输的速度。显存频率越高，显存能够在单位时间内读写的数据量就越大，这对于需要快速处理大量图形数据的应用（如高分辨率游戏、专业图形设计）非常重要。

常见的显存类型如 GDDR6，其频率可以达到 14GHz 甚至更高。与核心频率类似，显存频率也受到散热和稳定性等因素的限制，过高的频率可能引发数据传输错误。