1. A800(2022 年推出)
A100 的替代方案,面向推理与轻量训练。
技术特性:
架构:Ampere架构,台积电7nm工艺。
算力:FP16 算力 62 TFLOPS,较A100(156 TFLOPS)下降 60%。
显存:40GB HBM2,带宽1.6TB/s(A100 为 1.5TB/s)。
互联:NVLink带宽从 600GB/s 降至 400GB/s,支持 8 卡集群。
市场表现:2023 年出货量超30万颗,占英伟达中国区营收的 35%。
2.H800(2023 年推出)
H100 的替代方案,面向大模型训练。
技术特性:
架构:Hopper架构,台积电4N 工艺。
算力:FP8 算力60 TFLOPS,较H100(60 TFLOPS)未降,但 FP16 算力从 312 TFLOPS 降至 148 TFLOPS。
显存:80GB HBM2e,带宽 3TB/s(H100 为 3.35TB/s)。
互联:NVLink 带宽从 900GB/s 降至 900GB/s,支持 8 卡集群。
市场表现:2023 年 Q4 出货量超 10 万颗,主要用于百度文心一言、阿里通义千问等模型训练。
3.H20(2023 年推出)
H100 的进一步简化版,面向垂类模型推理。
技术特性:
架构:Hopper架构,台积电4N 工艺。
算力:FP16 算力148 TFLOPS,与H800 持平,但取消 FP8 计算单元。
显存:96GB HBM3,带宽4TB/s,支持 NVLink 900GB/s。
功耗:400W,适配现有服务器散热系统。
市场表现:2024 年出货量超 50 万颗,占英伟达中国区营收的 60%。
4. HGX H20、L20 PCle、L2 PCle(2023 年推出)
H100 的替代方案,面向不同部署场景。
技术特性:
HGX H20:SXM板卡形态,支持8卡集群,FP16 算力148TFLOPS,适配英伟达 HGX 服务器。
L20 PCle:PCIe接口,48GB GDDR6显存,FP16 算力74TFLOPS,面向边缘推理。
L2 PCle:PCIe接口,24GB GDDR6 显存,FP16 算力37TFLOPS,面向轻量级AI应用。
市场表现:L20 PCle在安防、工业质检等领域出货量超 20 万颗。
5.RTX 4090D:Ada Lovelace(2023 年推出)
RTX4090 的替代方案,面向不同部署场景。
架构与参数:基于Ada Lovelace架构,搭载AD102-250 GPU,拥有14592个CUDA 核心、456 个 Tensor Core 和 176个RT Core,显存为24GB GDDR6X(384bit 位宽),加速频率2.52GHz,总功耗 425W。
英伟达为中国市场推出的定制版游戏显卡。美国2023年10 月更新的出口管制要求,将 AI 算力超过 4800 TPP(总性能参数)的 GPU 列为对华禁售产品。原版 RTX 4090 的 TPP 为 5285,而 RTX 4090D 通过削减 11% 的 CUDA 核心和 Tensor Core,将 TPP 降至 476.8,规避了出口限制。
6. RTX 5090D:Blackwell 架构(2025年1月推出)
RTX5090 的替代方案,面向不同部署场景。
架构与参数:基于Blackwell 架构,搭载B102-250 GPU,拥有21760 个 CUDA 核心、512 个 Tensor Core和224个RT Core,显存为 32GB GDDR7(512bit 位宽),加速频率 2.41GHz,总功耗 575W。与原版 RTX 5090 相比,ROP 单元减少 8 个(从 176 个降至 168 个),可能导致性能损失约 4%-11%。
英伟达在 CES 2025 上推出的中国独有的显卡。这款产品保留了其全球版本 RTX 5090 的大部分规格,除了人工智能性能方面,RTX 5090 的 3352 AI TOPS 被降低到 RTX 5090D 的 2375 AI TOPS,降幅为 29%,同时取消 NVLink 互联功能,避免用于超算集群。
7. B20(2025 年6月推出)
B20是Blackwell B200 的一个简化版,预计于 2025 年第二季度(2025年6月份)发布,面向下一代推理需求。
架构:Blackwell 架构,台积电 4N 工艺。
由英伟达在中国的主要合作伙伴浪潮进行销售。为了符合美国的出口限制,B20 会进行一定程度的性能削减,预计将成为入门级产品,具体太多参数信息还比较少。要满足美国 2025 年4月出口管制新规要求,其性能将被大幅削弱,与 Blackwell 系列的旗舰 GPU B200 不是一个等级。因此,相比英伟达其他高端 GPU 产品,B20 可能并不存在传统意义上在算力、内存等方面的优势。
笔者的思考部分:
B20 通过参数调整符合美国当前出口限制,可6月份出货中国,但美国政府可能进一步收紧规则。例如,2025年4月对H20 的管制升级,未来 B20 可能面临类似限制。英伟达已计提 55 亿美元准备金,反映其对政策风险的审慎态度。
B20 的推出是英伟达在政策高压下的生存策略,也是中国 AI 产业在技术封锁中寻找平衡的缩影。尽管其性能受限,但B20延续CUDA 生态,支持 PyTorch、TensorFlow 等主流框架,且与英伟达 AI Enterprise 软件套件深度整合。这对依赖现有开发工具链的企业具有强粘性。例如,百度、阿里等云厂商等,使其在未来2-3 年仍将占据
欢迎加入读者交流群xinkejiquan001(与行业大咖交流、互换名片),请备注名字+公司+岗位。
3671
