加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 1 从传统SOC到超异构的思考
    • 2 NVIDIA在云和边数据中心芯片的布局
    • 3 NVIDIA在自动驾驶(终端)的布局  
    • 4 NVIDIA观点:网络视角的DPU发展趋势
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

超异构计算,NVIDIA已经在行动

2022/06/28
2538
阅读需 10 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

超异构计算,作为具有划时代意义的算力技术革命,这个趋势已经非常明显。

最近在梳理一些巨头的超异构计算发展趋势,发现:Intel在做非常宏大的战略层面的布局,而NVIDIA则已经在执行层面全面行动。NVIDIA在云、网、边、端等复杂计算场景,基本上都有重量级的产品和非常清晰的迭代路线图。

1 从传统SOC到超异构的思考

1.1 向前进1%,创新+重构

经过漫长历史的演进发展,人类和黑猩猩的基因相似度依然高达96%。在某个历史分叉点,也许和黑猩猩基因差别只有不到1%的人类的祖先,开始直立行走,从此开启了人类新的篇章。

所谓的创新,一定是在历史积累的过程中,向前进了那么一点点。但这一点点,会决定整个事情的性质和特征,从而对我们的社会和生活产生剧烈的影响。

苹果重新发明了(智能)手机,iPhone所拥有的技术,基本上之前都存在。它真正做的,就是把这些技术重新整合到了一起,以及把这里的一些技术往前推进了那么一点点,“而已”!

1.2 从SOC到超异构,创新+重构

系统变得越来越庞大,系统可以分解成很多个子系统,子系统的规模已经达到传统单系统的规模。因此,都升级一下:系统变成了宏系统,子系统变成了系统。关于SOC和超异构(HPU即超异构处理器)的区别,我们总结如下:

从SOC到超异构Multi-SOC,不是简单的集成,而是要把整个系统先解构,然后重新整合重构。只有这样,才能构建满足未来更高要求的超异构宏系统。

1.3 超异构计算,具有划时代意义的算力技术革命

 

从单核到多核,从同构到异构,都可以算是具有划时代意义的计算架构创新。

到了异构计算之后,更多是受限于编程的复杂度,以及CPU的性能仍然在快速提升,因此在异构这里大家停留了很久。通过xPU的各种架构创新,包括DSA架构的出现,都是为了更好地提升xPU的性能和通用性,以此来优化异构计算的性能/灵活性。

但异构计算局限在某一个特定领域,每个领域的异构计算都是一个个孤岛。

世易时移,新的划时代意义的架构创新的时机到来,那就是计算从异构开始走向超异构。

关于超异构的论述,可以参看公众号之前的相关文章。

2 NVIDIA在云和边数据中心芯片的布局

图 NVIDIA 数据中心CPU、GPU、DPU的roadmap

NVIDIA GPU从Ampere到下一代,也就是目前已经正式发布的Hopper。即将推出基于ARM Neoverse架构的Grace CPU芯片。而Bluefield DPU则是大概两年一个版本。

图 NVIDIA融合加速器(Converged Accelerators)

NVIDIA从2020年10月正式宣布DPU以来,就从板卡层级,把DPU和GPU通过PCIe相连接,做了一个融合DPU和GPU的解决方案。

图 NVIDIA DPU Roadmap

再来详细看看NVIDIA DPU的Roadmap,NVIDIA计划从Bluefield第四代开始,把DPU和GPU两者集成一个单芯片。

NVIDIA DPU和GPU集成了,也已经有了独立的Grace CPU。那么,在Chiplet技术已经成熟的情况下,再把CPU集成进来,构成CPU+GPU+DPU的超异构芯片,还会远吗?(不远,因为在自动驾驶端已经有了。)

3 NVIDIA在自动驾驶(终端)的布局
 

图 NVIDIA 自动驾驶芯片roadmap
 

 

图 NVIDIA计划2024年推出的自动驾驶芯片Atlan

NVIDIA在自动驾驶领域的芯片发展,也基本上是2年一代产品。

  • Parker是一颗典型的SOC,包括CPU、GPU和其他一些相关的加速引擎以及I/O设备。Parker SOC包括:256核Pascal架构GPU,6个CPU核(4个ARM Cortex A57和2个 ARM Denver),这是英伟达面向车规级的第一颗SoC芯片。
  • Xavier则拥有8核ARM 64 CPU(Carmel)和512核Volta架构GPU。Xavier专为自动驾驶系统设计,还搭载了深度学习加速模块DLA和向量处理单元PVA。DLA主要用于推理,PVA主要用于加速传统视觉算法,这是英伟达首次采用CPU+GPU+DSA的技术路线。并且在Xavier的基础上,推出Pegasus板级平台:由2颗Xavier芯片和2颗单独的Turing架构的GPU(4680CUDA Core+576 Tensor Core+RT Core)组成,可以实现320 TOPS的算力。
  • Orin芯片包含8-12核的ARM Cortex A78 CPU,以及2048核的Ampere架构GPU,以及DLA,以及视频编解码等其他加速引擎。DRIVE AGX Orin平台,由2颗Orin SoC芯片和2颗 Ampere架构的GPU组成,最高算力达到2000 TOPS,功耗800W。
  • 而到了2024年要发布的Atlan芯片,则完全变成了集成ARM Neoverse系列的Grace CPU、有可能是Hopper架构的GPU以及Bluefield DPU,可以单芯片达到1000 TOPS。

从量变到质变,Atlan从SOC到超异构,随着集成单元的增多,随着性能需求的上升,随着系统复杂度的上升而对芯片的通用灵活可编程能力要求上升,都需要全新的架构,全新的整合重构。

4 NVIDIA观点:网络视角的DPU发展趋势

整个互联网是通过网络把设备连接起来组成的,站在网络视角,设备主要有两类:

  • 用于计算的网络接入端设备,如云服务器、边缘服务器、自动驾驶超级终端、移动终端等,甚至也包括各种IoT设备。

在传统视角下,计算和网络是相互独立的,各自关心自己的事情。但随着云计算、边缘计算的不断发展,网络也越来越复杂;在应用需求的推动下,计算所需的性能在急速增长,但随着CPU性能瓶颈摩尔定律失效,需要通过各种方式进行计算加速,使得问题变得非常的复杂。

网络和计算都遇到了瓶颈问题,单独地以各自的方式解决各自的问题,难度都很大。而把两者融合起来,用网络的方式解决计算的问题,用计算的方式解决网络的挑战,却是非常的高效。未来的一个重要趋势是,计算和网络在不断融合:

  • 计算的很多挑战,需要网络的协同,来更高效地解决。网络设备也加入到计算集群中,成为计算的一部分。
  • 网络设备越来越像计算机。需要支持虚拟化,通过虚拟化技术把计算资源分割成独立的NFV,来有效利用资源。每个NFV都是小的异构计算,通过CPU+网络加速的方式来提升性能。

数据量越来越大,而数据在网络中流动,计算节点也是靠数据的流动来驱动计算,计算的架构从以计算为中心转向了以数据为中心。所有的系统本质上就是数据处理,那么所有的设备就都可以是Data Processing Unit。

未来,以DPU为基础,不断地融合CPU和GPU的功能,DPU会逐渐演化成数据中心统一的超异构处理器。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
MC56F8323VFBE 1 Freescale Semiconductor 16-bit DSC, 56800E core, 32KB Flash, 60MHz, QFP 64

ECAD模型

下载ECAD模型
$14.69 查看
ATXMEGA128A4U-AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 44TQFP

ECAD模型

下载ECAD模型
$4.91 查看
STM32F205RCT6 1 STMicroelectronics High-performance Arm Cortex-M3 MCU with 256 Kbytes of Flash memory, 120 MHz CPU, ART Accelerator

ECAD模型

下载ECAD模型
$27.28 查看
英伟达

英伟达

为这个时代的达芬奇和爱因斯坦们提供超强计算性能。我们开创性地开发出一种超强计算形式,深受全世界对计算机有超高要求的用户的青睐,包括科学家、设计师、艺术家和游戏玩家。对于他们而言,我们的创造几乎可媲美时间机器。基于对更优质 3D 图形永无止境的需求以及当下庞大的游戏市场,NVIDIA 已在这个虚拟现实、高性能计算和人工智能的交叉口,将 GPU 发展为计算机大脑。

为这个时代的达芬奇和爱因斯坦们提供超强计算性能。我们开创性地开发出一种超强计算形式,深受全世界对计算机有超高要求的用户的青睐,包括科学家、设计师、艺术家和游戏玩家。对于他们而言,我们的创造几乎可媲美时间机器。基于对更优质 3D 图形永无止境的需求以及当下庞大的游戏市场,NVIDIA 已在这个虚拟现实、高性能计算和人工智能的交叉口,将 GPU 发展为计算机大脑。收起

查看更多

相关推荐

电子产业图谱

公众号:软硬件融合;CPU灵活性好但性能较差,ASIC性能极致但灵活性差,鱼和熊掌如何兼得,同时兼顾性能和灵活性,我给出的方案是“软硬件融合”。软硬件融合不是说要软硬件紧耦合,相反,是要权衡在不同层次和粒度解耦之后,再更加充分的协同。