• 正文
  • 相关推荐
申请入驻 产业图谱

昇腾芯片到底是什么让美国如此打压!

05/23 11:07
6647
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

都知道美国对我国AI以及算力发展是既忌惮又打压,在之前关税对战结束后,川普又开始向芯片半导体方向猛烈进攻,大有全面进攻不利后,转向单线重点进攻的意思。

一是废了拜登的“分级制裁”政策;二是封杀华为;三是威胁全球企业,谁帮中国就整谁。

封杀华为就是让全世界的企业都必须二选一,如果用了华为昇腾芯片,那就是违反了新的政策,关于禁令就不详聊了。既然点名了华为的昇腾芯片,那我们就详细了解一下昇腾芯片,以及目前国内AI处理器的进展。

昇腾 AI 处理器

先来说一下昇腾计算,是基于华为昇腾系列(HUAWEI Ascend)AI处理器和基础软件构建Atlas人工智能计算解决方案,包括Atlas系列模块、板卡、小站、服务器、集群等丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案,覆盖深度学习领域推理和训练全流程。

华为公司针对 AI 领域专用计算量身打造了“达芬奇架构”,并于 2018 年推出了基于“达芬奇架构”的昇腾 AI 处理器,开启了华为的AI之旅。

从基础研究出发,立足于自然语言处理、机器视觉自动驾驶等领域,昇腾 AI 处理器致力于打造面向云边端一体化的全栈全场景解决方案,同时为了配合其应用目标,打造了异构计算架构 CANN(Computer Architecture for Nerual Network),为昇腾 AI 处理器进行加速计算。

全栈指技术方面,包括 IP、芯片、加速计算、AI 框架、应用使能等的全栈式设计方案。全场景包括公有云、私有云、各种边缘计算物联网行业终端及消费者终端设备。围绕全栈全场景,华为正以昇腾 AI 处理器为核心,以算力为驱动,以工具为抓手,全力突破 AI 发展的极限。

2018 年开始,昇腾 AI 处理器的训练和推理系列型号陆续推出。推理系列的处理器则是面向移动计算场景的强算力 AI 片上系统(SoC,System on Chip)。训练系列的处理器主要应用于云端,可以为深度学习的训练算法提供强大算力

在设计上,昇腾 AI 处理器意图突破目前 AI 芯片功耗、运算性能和效率的约束,目的是极大提升能效比。昇腾 AI 处理器采用了华为自研的达芬奇架构,专门针对神经网络运算特征而量身定做,以高性能的 3D Cube 矩阵计算单元为基础,实现针对张量计算的算力和能效比大幅度提升。

每个矩阵计算单元可以由一条指令完成 4096 次乘加计算(如图所示),并且处理器内部还支持多维计算模式,如标量、矢量、矩阵等,打破了其它 AI 专用芯片的局现象,增加了计算的灵活度。同时支持多种类混合精度计算,在实现推理应用的同时也强力支持了训练的数据精度要求。

达芬奇架构的统一性体现在多个应用场景的良好适配上,覆盖高、中、低全场景,一次开发可支持多场景部署、迁移和协同。从架构上提升了软件效率。功耗优势也是该架构的一个显著特点,统一的架构可以支持从几十毫瓦到几百瓦的芯片,可以进行多核灵活扩展,在不同应用场景下发挥出芯片的能耗优势。

AI 处理器架构

昇腾 AI 处理器本质上是一个片上系统(System on Chip,SoC),主要可以应用在和图像、视频、语音、文字处理相关的应用场景。上图是早期昇腾其处理器的逻辑架构,其主要的架构组成部件包括特制的计算单元、大容量的存储单元和相应的控制单元。无论是训练还是推理的芯片以及上层的硬件型号,基于基于 DaVinci AI 技术架构如图所示。

该处理器大致可以划为:芯片系统控制 CPU(Control CPU),AI 计算引擎(包括 AI Core 和 AI CPU),多层级的片上系统缓存(Cache)或缓冲区(Buffer),数字视觉预处理模块(Digital Vision Pre-Processing,DVPP)等。

芯片可以采用 LPDDR4 高速主存控制器接口,价格较低。目前主流 SoC 芯片的主存一般由 DDR(Double Data Rate)或 HBM(High Bandwidth Memory)构成,用来存放大量的数据。HBM 相对于 DDR 存储带宽较高,是行业的发展方向。其它通用的外设接口模块包括 USB、磁盘、网卡GPIOI2C电源管理接口等。

昇腾 910

昇腾 910 处理器的目标场景是云端的推理和训练,其架构如图所示,包含 Davinci Core、DVPP、HBM、DDR4 等组件。

昇腾 910 处理器采用了芯粒(chiplet)技术,包含六个 die: 1 个计算芯粒(包含 32 个 Davinci Core、16 个 CPU Core 和 4 个 DVDP),1 个 IO 芯粒,和 4 个 HBM 芯粒(总计 1.2TB/s 带宽)。针对云端训练和推理场景,昇腾 910 处理器做的优化包括:

高算力: 训练场景通常使用的 Batch Size 较大,因此采用最高规格的 Ascend-Max,每个 Core 每个周期可以完成 161616=4096 次 FP16 乘累加。

高 Load/Store 带宽: 训练场景下计算反向 SGD 时,会有大量对 Last Level Cache 和片外缓存的访问,因此需要配备较高的 Load/Store 带宽,因此昇腾 910 除了 DDR 还采用了 HBM 技术。

100G NIC: 随着 DNN 的模型尺寸愈发庞大,单机单卡甚至单机多卡已经不能满足云端训练的需求,为了支持多卡多机组成集群,昇腾 910 集成了支持 ROCE V2 协议的 100G NIC 用于跨服务器传递数据,使得可以使用昇腾 910 组成万卡集群。

高吞吐率的数字视觉与处理器(DVPP): DVPP 用于 JPEG、PNG 格式图像编解码、图像预处理(对输入图像上下采样、裁剪、色调转换等)、视频编解码,为了适配云端推理场景,DVPP 最高支持 128 路 1080P 视频解码。

昇腾 310

昇腾 310 处理器的目标场景是边缘推理,比如智慧城市、智慧新零售、机器人、工业制造等,其架构如上图所示,主要包含 Davinci Core、DVPP、LPDDR4 等组件。

相比昇腾 910,昇腾 310 的定制化 IP 相对较少,但是提供了更多外设接口。

达芬奇架构针对通用卷积的计算特征和数据流规律,采用功能高度定制化的设计,将存储、计算和控制单元进行有效的结合,在每个模块完成独立功能的同时实现了整体的优化设计。AI Core 高效组合了矩阵计算单元与数据缓冲区,缩短了存储到计算的数据传输路径,降低延时。

同时 AI Core 在片上集成了大容量的输入缓冲区和输出缓冲区,一次可以读取并缓存充足的数据,减少了对核外存储系统的访问频次,提升了数据搬移的效率。同时各类缓冲区相对于核外存储系统具有较高的访问速度,大量片上缓冲区的使用也极大提升了计算中实际可获得的数据带宽。

同时针对神经网络的结构多样性,AI Core 采用了灵活的数据通路,使得数据在片上缓冲区、核外存储系统、存储转换单元以及计算单元之间可以快速流动和切换,从而满足不同结构的神经网络的计算要求,使得 AI Core 对各种类型的计算具有一定的通用性。

介绍完昇腾芯片,再看看国产其他AI芯片的进展情况!

天数智芯天垓100与智铠100:训练推理双雄

天垓100是天数智芯推出的基于自研通用架构的AI训练加速卡 ,专注于深度学习训练和多卡协作计算。其峰值算力为147 TFLOPS(FP16/BF16) ,支持多种数据精度,能灵活适配各类算法。虽然显存带宽为64GB/s,在一众产品中不算突出,但其1.2TB/s的卡间互联带宽在分布式训练任务中优势巨大。天垓100兼容CUDA生态和主流深度学习框架,支持x86和ARM架构 ,编程能力灵活,软件栈高效,能帮助客户低成本、快速实现系统迁移,性价比出色。

智铠100则是专注于推理任务的通用GPU加速卡。基于通用架构设计,它能提供200 TFLOPS的推理算力 ,功耗仅150W,能效比极高,特别适合安防、金融等对低功耗部署要求严格的行业。智铠100支持多种精度推理,同样兼容CUDA生态和主流深度学习框架 ,软件栈完善,工具丰富,为人工智能应用的开发和部署提供高效支持,凭借高性价比和广泛的行业适配性,成为推理任务的优质之选。

海光K100系列:显存与计算的平衡

海光K100 AI版基于通用架构设计,拥有196 TFLOPS的峰值算力 、64GB显存和896GB/s的显存带宽,非常适合显存密集型训练任务和高性能计算领域,功耗350W,支持飞桨框架ROCm版 ,可在海光CPU与其专用的DCU加速器上高效运行模型训练与预测任务。虽然计算性能相比英伟达A100和H100稍显逊色,但通过硬件和软件架构优化,在大模型的场景化落地方面展现出强劲的应用能力。

海光K100拥有100 TFLOPS的峰值算力、64GB显存和896GB/s的显存带宽 ,在FP16性能上与K100 AI版差异较大,采用双精度计算单元,定位于需要高精度计算的通用任务场景。K100设计更通用,适用于高精度科学计算,而K100 AI版侧重单精度计算 ,在AI任务中效率更高。

寒武纪MLU590:分布式计算强者

寒武纪MLU590基于灵活的MLUv02扩展架构设计 ,支持云端和端侧应用。具备314 TFLOPS(FP16)的峰值算力 、80GB显存和高达2TB/s的带宽,在分布式计算和大规模模型训练任务中表现尤其突出。其架构具有端云一体的可扩展性 ,以TP和MTP作为最小扩展单元:TP适用于单个IPU核心,适合低功耗的端侧应用;MTP则由多个IPU核心组成Cluster,面向高性能的云端任务 ,可通过单机多卡或多机多卡的MLU-Link集群实现并行加速,满足云端AI计算和分布式任务的多样化需求,在性能、灵活性和扩展性之间达到了良好平衡。

性能大对比

1、算力比拼

在峰值算力方面,华为昇腾910B以376 TFLOPS(FP16)的成绩名列前茅,展现出强大的计算能力,能够轻松应对大规模深度学习和复杂数据处理任务;

寒武纪MLU590的314 TFLOPS(FP16)也十分可观,在分布式计算场景中优势明显;

海光K100 AI版的196 TFLOPS在显存密集型训练中发挥重要作用 ;

天数智芯天垓100的147 TFLOPS(FP16/BF16)虽相对低一些,但在多卡协作计算中凭借出色的卡间互联带宽弥补不足;

海光K100的100 TFLOPS适用于高精度通用计算任务 ;

天数智芯智铠100专注推理,200 TFLOPS的推理算力也能满足其目标行业需求。

2、显存与带宽

显存和带宽对AI加速器性能影响重大,特别是在大规模模型训练和推理任务中。

寒武纪MLU590凭借80GB显存和2TB/s的超高带宽 ,在大规模模型训练和数据吞吐方面表现卓越;

海光K100系列的64GB显存和896GB/s带宽 ,使其在显存密集型任务中实力强劲;

天数智铠100和天垓100显存为32GB ,但带宽分别达到800GB/s和64GB/s ,适合中型模型和推理应用;

华为昇腾910B的64GB显存和392GB/s带宽 ,结合强大算力,在深度学习等场景表现出色。

3、功耗表现

从功耗上看,各显卡在能效设计上各有侧重。

华为昇腾910B、海光K100 AI版、寒武纪MLU590均采用350W的高功耗设计,聚焦于高性能计算和大规模AI训练任务,以强大算力为首要目标;

海光K100标准版功耗稍低,为300W ,适合对算力和能效均有需求的场景;天数天垓100以250W的功耗实现较优的算力与能效平衡 ;

智铠100功耗仅为150W ,是推理任务和低功耗应用的理想选择,特别适合对能效要求较高的行业应用。

华为

华为

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。目前华为约有19.7万员工,业务遍及170多个国家和地区,服务全球30多亿人口。华为致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界:让无处不在的联接,成为人人平等的权利,成为智能世界的前提和基础;为世界提供最强算力,让云无处不在,让智能无所不及;所有的行业和组织,因强大的数字平台而变得敏捷、高效、生机勃勃;通过AI重新定义体验,让消费者在家居、出行、办公、影音娱乐、运动健康等全场景获得极致的个性化智慧体验。

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。目前华为约有19.7万员工,业务遍及170多个国家和地区,服务全球30多亿人口。华为致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界:让无处不在的联接,成为人人平等的权利,成为智能世界的前提和基础;为世界提供最强算力,让云无处不在,让智能无所不及;所有的行业和组织,因强大的数字平台而变得敏捷、高效、生机勃勃;通过AI重新定义体验,让消费者在家居、出行、办公、影音娱乐、运动健康等全场景获得极致的个性化智慧体验。收起

查看更多

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录