昇腾910 AI芯片技术全面概述

本文所有资料都已上传至“智能计算芯知识”星球。如“《60+份AI Agent技术报告合集》”，“《清华大学：DeepSeek报告13部曲合集》”，“浙江大学：DeepSeek技术20篇（合集）”，“《300+份DeepSeek技术报告合集》”，“《100+份AI芯片技术修炼合集》”，“800+份重磅ChatGPT专业报告”，“《12+份Manus技术报告合集》”，加入星球获取严选精华技术报告。

华为昇腾910（Ascend 910）是华为基于自研达芬奇（Da Vinci）架构开发的高性能AI处理器，采用7nm+ EUV 先进制程工艺，专为人工智能训练场景设计。作为Ascend-Max系列旗舰产品，昇腾910在半精度(FP16)下提供256 Tera-FLOPS算力，整数精度(INT8)算力高达512 Tera-OPS，同时功耗控制在310W，能效比显著优于业界同类产品。

本文介绍昇腾910的技术架构、关键参数、性能表现及配套软件生态，为AI开发者提供参考。

1. 产品概述

1.1 产品定位

昇腾910是华为全栈全场景AI解决方案的核心算力基础，主要面向：

数据中心AI训练场景

大规模分布式训练系统

高性能计算(HPC)与深度学习融合应用

云服务AI加速平台

1.2 关键特性

超高计算密度：单芯片集成32个达芬奇核心，FP16算力256 TFLOPS

卓越能效比：实测功耗310W，低于设计规格350W

全场景支持：与MindSpore框架深度协同，支持端-边-云统一架构

先进制程：7nm+ EUV工艺实现更高晶体管密度

安全可信：内置模型保护机制，支持隐私计算

2. 技术规格

2.1 硬件参数

参数类别	规格详情
架构	达芬奇架构(Da Vinci)
制程工艺	7nm+ EUV
计算精度	FP16: 256 TFLOPS / INT8: 512 TOPS
核心数量	32个达芬奇核心
功耗	设计值350W，实测310W
视频解码	128通道全高清(H.264/265)解码器
互联接口	HCCS(240Gbps)、PCIe、RoCE
封装尺寸	待补充

表：昇腾910关键硬件规格

2.2 计算架构

昇腾910采用创新的达芬奇3D Cube架构，核心计算单元包括：

3D Cube矩阵乘法单元：

单周期完成4096次乘加运算

相比CPU/GPU有两个数量级的提升

32个Cube引擎并行工作，提供256TFLOPS算力

向量计算单元(Vector)：

支持丰富的定制计算指令

处理非矩阵类运算任务

覆盖各种基本计算类型

标量计算单元(Scalar)：

功能相当于精简CPU核

负责程序流控制、分支判断

处理基础算术运算

这种异构计算架构实现了计算任务的高效分工，使昇腾910能够自主完成整个AI训练流程，最小化与Host的交互。

3. 性能表现

3.1 基准测试

在典型AI训练任务中，昇腾910表现出色：

ResNet50训练：与主流训练单卡+TensorFlow相比，性能提升近2倍（图片处理从965张/秒提升至1802张/秒）

算力效率：实际算力完全达到设计规格，功耗低于预期

计算密度：远超NVIDIA Tesla V100和Google TPU v3

3.2 集群性能

华为基于昇腾910构建的Ascend集群：

单集群包含1024颗昇腾910

总算力达到256P（Peta-FLOPS）

大幅超越NVIDIA DGX2和Google TPU集群性能

4. 软件生态

4.1 全场景AI框架

昇腾910与华为自研的MindSpore框架深度协同，提供：

开发效率提升：核心代码量减少20%，整体效率提升50%

自动微分：采用Source 2 Source方式实现，优于传统图优化方法

分布式训练：自动实现多机混合并行，无需手动切分模型

隐私保护：通过梯度/模型信息协同而非原始数据传递

4.2 算子库与工具链

CANN算子库：提供高性能AI算子，开发效率提升3倍

TensorEngine：统一DSL接口，支持自动算子优化与生成

ModelArts：机器学习 PaaS平台，日均训练作业超4000个

5. 应用场景

昇腾910适用于多种AI计算场景：

大规模模型训练：

支持千亿参数级模型训练

适合NLP、CV等前沿AI研究

云端AI服务：

华为云EI服务基础算力

提供59种AI服务、159项功能

行业智能：

医疗影像分析

金融风控建模

工业质检等专业领域

科学计算：

分子动力学模拟

气候预测等HPC场景

6. 产品路线图

1. 第一代昇腾（2018-2020）

昇腾310：面向边缘推理场景，采用12nm工艺，INT8算力16 TOPS，功耗8W，主打低延迟推理（如摄像头、车载设备）。

昇腾910：首款数据中心级训练芯片，7nm工艺，FP16算力256 TFLOPS，功耗310W，支持华为全栈AI生态（MindSpore、ModelArts）。

2. 第二代昇腾（2021-2023）

昇腾910B：7nm+ EUV工艺优化，FP16算力提升至376 TFLOPS，支持更高效的大模型训练，适配华为云昇腾AI云服务。

昇腾310B：边缘端升级版，支持多模态推理（视觉、语音），集成轻量级MindSpore Lite框架。

3. 第三代昇腾（2024-2025）

昇腾910C：用于CloudMatrix 384超节点集群，单节点集成384颗芯片，支持万亿参数大模型训练，显存带宽优化至3TB/s以上。

昇腾320：面向边缘计算的下一代芯片，5nm工艺，能效比提升50%，支持端-边-云协同推理。

4. 未来规划（2026+）

昇腾920：预计采用3nm工艺，FP16算力目标突破1 PFLOPS，支持FP8精度和动态稀疏计算，适配MoE架构大模型。

2025年推出CloudMatrix 384超节点集群，基于昇腾910C芯片，单集群算力达百P级（Peta-FLOPS），支持30天不间断训练，故障恢复时间<10分钟；用于DeepSeek等千亿级大模型训练、多模态长序列处理。

7. 技术优势总结

算力领先：FP16算力256 TFLOPS，超越同期竞品50-100%

能效优异：310W实际功耗，能效比达业界最佳水平两倍

架构创新：3D Cube设计实现超高计算密度

全栈协同：与MindSpore深度优化，发挥硬件最大潜能

场景覆盖：支持从云端到边缘的全场景AI部署

8. 术语介绍&解释

8.1 术语表

达芬奇架构：华为自研的异构AI计算架构

3D Cube：专为矩阵运算优化的三维计算单元

MindSpore：华为全场景AI计算框架

CANN：华为AI算子库

8.2 测试环境

测试平台：华为Atlas 900 AI训练集群

对比系统：NVIDIA DGX-2 with Tesla V100

基准模型：ResNet50、Transformer等

下载链接：

「重磅合集」

1、《70+篇半导体行业“研究框架”合集》

2、《56+份智能网卡和DPU合集》

3、《14份半导体“AI的iPhone时刻”系列合集》

4、《21份走进“芯”时代系列深度报告合集》

5、《800+份重磅ChatGPT专业报告》

6、《92份GPU技术及白皮书汇总》

7、《11+份AI的裂变时刻系列报告》

8、《3+份技术系列基础知识详解（星球版）》

9、《12+份Manus技术报告合集》

10、《100+份AI芯片修炼合集》

11、《60+份AI Agent技术报告合集》

《100+份AI芯片技术修炼合集》

《300+份DeepSeek技术报告合集》

《42篇半导体行业深度报告&图谱（合集）

亚太芯谷科技研究院：2024年AI大算力芯片技术发展与产业趋势

SSD闪存技术基础知识全解（知识星球版）服务器基础知识全解（知识星球版）存储系统基础知识全解（知识星球版）2025新技术前瞻专题系列合集《科技龙头巡礼专题：华为技术合集》

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。