本文所有资料都已上传至“智能计算芯知识”星球。如“《60+份AI Agent技术报告合集》”,“《清华大学:DeepSeek报告13部曲合集》”,“浙江大学:DeepSeek技术20篇(合集)”,“《300+份DeepSeek技术报告合集》”,“《100+份AI芯片技术修炼合集》”,“800+份重磅ChatGPT专业报告”,“《12+份Manus技术报告合集》”,加入星球获取严选精华技术报告。
华为昇腾910(Ascend 910)是华为基于自研达芬奇(Da Vinci)架构开发的高性能AI处理器,采用7nm+ EUV先进制程工艺,专为人工智能训练场景设计。作为Ascend-Max系列旗舰产品,昇腾910在半精度(FP16)下提供256 Tera-FLOPS算力,整数精度(INT8)算力高达512 Tera-OPS,同时功耗控制在310W,能效比显著优于业界同类产品。
本文介绍昇腾910的技术架构、关键参数、性能表现及配套软件生态,为AI开发者提供参考。
1. 产品概述
1.1 产品定位
昇腾910是华为全栈全场景AI解决方案的核心算力基础,主要面向:
数据中心AI训练场景
大规模分布式训练系统
高性能计算(HPC)与深度学习融合应用
云服务AI加速平台
1.2 关键特性
超高计算密度:单芯片集成32个达芬奇核心,FP16算力256 TFLOPS
卓越能效比:实测功耗310W,低于设计规格350W
全场景支持:与MindSpore框架深度协同,支持端-边-云统一架构
先进制程:7nm+ EUV工艺实现更高晶体管密度
安全可信:内置模型保护机制,支持隐私计算
2. 技术规格
2.1 硬件参数
| 参数类别 | 规格详情 |
|---|---|
| 架构 | 达芬奇架构(Da Vinci) |
| 制程工艺 | 7nm+ EUV |
| 计算精度 | FP16: 256 TFLOPS / INT8: 512 TOPS |
| 核心数量 | 32个达芬奇核心 |
| 功耗 | 设计值350W,实测310W |
| 视频解码 | 128通道全高清(H.264/265)解码器 |
| 互联接口 | HCCS(240Gbps)、PCIe、RoCE |
| 封装尺寸 | 待补充 |
表:昇腾910关键硬件规格
2.2 计算架构
昇腾910采用创新的达芬奇3D Cube架构,核心计算单元包括:
3D Cube矩阵乘法单元:
单周期完成4096次乘加运算
相比CPU/GPU有两个数量级的提升
32个Cube引擎并行工作,提供256TFLOPS算力
向量计算单元(Vector):
支持丰富的定制计算指令
处理非矩阵类运算任务
覆盖各种基本计算类型
标量计算单元(Scalar):
功能相当于精简CPU核
负责程序流控制、分支判断
处理基础算术运算
这种异构计算架构实现了计算任务的高效分工,使昇腾910能够自主完成整个AI训练流程,最小化与Host的交互。
3. 性能表现
3.1 基准测试
在典型AI训练任务中,昇腾910表现出色:
ResNet50训练:与主流训练单卡+TensorFlow相比,性能提升近2倍(图片处理从965张/秒提升至1802张/秒)
算力效率:实际算力完全达到设计规格,功耗低于预期
计算密度:远超NVIDIA Tesla V100和Google TPU v3
3.2 集群性能
华为基于昇腾910构建的Ascend集群:
单集群包含1024颗昇腾910
总算力达到256P(Peta-FLOPS)
大幅超越NVIDIA DGX2和Google TPU集群性能
4. 软件生态
4.1 全场景AI框架
昇腾910与华为自研的MindSpore框架深度协同,提供:
开发效率提升:核心代码量减少20%,整体效率提升50%
自动微分:采用Source 2 Source方式实现,优于传统图优化方法
分布式训练:自动实现多机混合并行,无需手动切分模型
隐私保护:通过梯度/模型信息协同而非原始数据传递
4.2 算子库与工具链
CANN算子库:提供高性能AI算子,开发效率提升3倍
TensorEngine:统一DSL接口,支持自动算子优化与生成
ModelArts:机器学习PaaS平台,日均训练作业超4000个
5. 应用场景
昇腾910适用于多种AI计算场景:
大规模模型训练:
支持千亿参数级模型训练
适合NLP、CV等前沿AI研究
云端AI服务:
华为云EI服务基础算力
提供59种AI服务、159项功能
行业智能:
医疗影像分析
金融风控建模
工业质检等专业领域
科学计算:
分子动力学模拟
气候预测等HPC场景
6. 产品路线图
1. 第一代昇腾(2018-2020)
昇腾310:面向边缘推理场景,采用12nm工艺,INT8算力16 TOPS,功耗8W,主打低延迟推理(如摄像头、车载设备)。
昇腾910:首款数据中心级训练芯片,7nm工艺,FP16算力256 TFLOPS,功耗310W,支持华为全栈AI生态(MindSpore、ModelArts)。
2. 第二代昇腾(2021-2023)
昇腾910B:7nm+ EUV工艺优化,FP16算力提升至376 TFLOPS,支持更高效的大模型训练,适配华为云昇腾AI云服务。
昇腾310B:边缘端升级版,支持多模态推理(视觉、语音),集成轻量级MindSpore Lite框架。
3. 第三代昇腾(2024-2025)
昇腾910C:用于CloudMatrix 384超节点集群,单节点集成384颗芯片,支持万亿参数大模型训练,显存带宽优化至3TB/s以上。
昇腾320:面向边缘计算的下一代芯片,5nm工艺,能效比提升50%,支持端-边-云协同推理。
4. 未来规划(2026+)
昇腾920:预计采用3nm工艺,FP16算力目标突破1 PFLOPS,支持FP8精度和动态稀疏计算,适配MoE架构大模型。
2025年推出CloudMatrix 384超节点集群,基于昇腾910C芯片,单集群算力达百P级(Peta-FLOPS),支持30天不间断训练,故障恢复时间<10分钟;用于DeepSeek等千亿级大模型训练、多模态长序列处理。
7. 技术优势总结
算力领先:FP16算力256 TFLOPS,超越同期竞品50-100%
能效优异:310W实际功耗,能效比达业界最佳水平两倍
架构创新:3D Cube设计实现超高计算密度
全栈协同:与MindSpore深度优化,发挥硬件最大潜能
场景覆盖:支持从云端到边缘的全场景AI部署
8. 术语介绍&解释
8.1 术语表
达芬奇架构:华为自研的异构AI计算架构
3D Cube:专为矩阵运算优化的三维计算单元
MindSpore:华为全场景AI计算框架
CANN:华为AI算子库
8.2 测试环境
测试平台:华为Atlas 900 AI训练集群
对比系统:NVIDIA DGX-2 with Tesla V100
基准模型:ResNet50、Transformer等
下载链接:
「重磅合集」
1、《70+篇半导体行业“研究框架”合集》
2、《56+份智能网卡和DPU合集》
3、《14份半导体“AI的iPhone时刻”系列合集》
4、《21份走进“芯”时代系列深度报告合集》
5、《800+份重磅ChatGPT专业报告》
6、《92份GPU技术及白皮书汇总》
7、《11+份AI的裂变时刻系列报告》
8、《3+份技术系列基础知识详解(星球版)》
9、《12+份Manus技术报告合集》
10、《100+份AI芯片修炼合集》
11、《60+份AI Agent技术报告合集》
《100+份AI芯片技术修炼合集》
《300+份DeepSeek技术报告合集》
《42篇半导体行业深度报告&图谱(合集)
亚太芯谷科技研究院:2024年AI大算力芯片技术发展与产业趋势
SSD闪存技术基础知识全解(知识星球版)服务器基础知识全解(知识星球版)存储系统基础知识全解(知识星球版)2025新技术前瞻专题系列合集《科技龙头巡礼专题:华为技术合集》
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
1.8万