随着5G、物联网以及AI等技术的发展,云端的局限性逐渐显现,为了解决云端弱点,边缘计算应运而生。根据Gartner《边缘计算2021年战略路线图》中的数据显示,边缘AI芯片组市场机遇是数据中心的3倍,至2025年将达到650亿美元的规模。
 


那什么是边缘计算?边缘计算的特点是什么?边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。低时延、AI算力、低功耗以及安全和保密,这四者是边缘自主非常重要的组成部分,也是边缘区别于工业和IoT的一个主要特点,也就是用资源来支持边缘的自主,使它能够独立于云端。


继2018年推出Versal Core和Prime,去年推出Versal Premium后(今年4月份的时候Versal AI的Core和Prime已经实现了7纳米节点的全面生产),近日赛灵思针对边缘计算领域,又推出了新的Versal AI Edge系列,采用了微型的ACAP架构,是一款自适应SoC,将主要在汽车、工业和医疗等领域中使用。


对比市场上其他的边缘计算SoC,赛灵思Versal AI Edge系列高级产品线经理Rehan Tahir表示,“Versal AI Edge 系列具备4倍的AI单位功耗性能和10倍的计算密度,是面向下一代分布式智能系统的全球最具可扩展性且灵活应变的产品组合 。”


以下是Rehan Tahir针对这三大特性的扩展解释:

 

  • 第一点是借助AI引擎和存储器层级创新,AI单位功耗性能是GPU的四倍,而且这样的存储器层级创新是在业界首次推出的。


为什么单位功耗性能非常重要呢?Rehan Tahir表示,“在边缘应用中,对热和功耗有非常严格的限制,同时还要实现非常高的性能。因此,赛灵思对其进行微型化,以加强AI算力,应对功耗和热的高要求,目前主要的实施案例包括智能视觉、无人机、协作机器人ADAS与自动驾驶,另外还有医学成像,包括内窥镜和超声。”
 


Rehan Tahir表示,“Versal AI Edge采用了AI引擎阵列,与英伟达的Jetson AGX Xavier GPU相比,具有4倍AI单位功耗性能的优势。这主要是因为赛灵思采用了专为机器学习优化的AI引擎。”


在这款AIE-ML AI引擎中,其乘法器数量翻倍、INT8算力翻倍,原生支持INT4和BFLOAT16。与未经机器学习优化的AI引擎相比,AIE-ML的每颗核心可提供2倍INT8算力,4倍INT4算力和16倍的BFLOAT16算力,时延减半。


在内存方面,AIE-ML的数据内存从32KB提升到64KB,实现了存储本地化。


此外,赛灵思还提出了新的加速器RAM,该器件可以实现35GB/s的存储器带宽,取代了DDR存储AI计算数据或安全关键代码。与DDR4相比,RAM还可以提升20%的机器学习算力。


相比竞争对手的边缘计算性能,Rehan Tahir表示,“Versal AI Edge与英伟达Jetson AGX Xavier同为最优配置的情况下,Versal AI Edge的单位功耗性能是Jetson AGX Xavier的4.4倍。而在其他配置下,Versal AI Edge也占有功耗性能优势。”

 

  • 第二点,和之前的SoC产品相比,他能够实现10倍的计算密度,并且提供最高水平的安全与保密性,接下来我会通过不同的工作负载给大家做详细的介绍。

 


上图左侧解决方案中有一个高分辨率的前置摄像头和四个高分辨率的环视摄像头,另外还有一个低分辨率的驾驶员监测系统,但是右侧方案中采用VE2302能够直接实现这六个摄像头的集成功能,除了六个摄像头的输入以外,还能够加上其他互联的一些器件,包括激光雷达雷达还有其他超声,这些都能够连到显示屏上,所以这不仅仅是在人工智能和机器学习方面的一个提升,另外在传感器、融合还有图像处理方面也能够得到提升。


上图底部中是具体的针对自适应的SoC和Versal ACAP之间比较,在算力方面得到了4.4倍的提升,面积方面,从3个器件变成1个器件,基本上节省了60%,功耗是差不多的,根据上面的数字,我们就得出了算力计算密度能够提高10倍。


以上是在汽车案例当中的应用,事实上 Versal AI Edge在全系列都能够推出车规级的产品。在汽车领域的应用,赛灵思遵守最严格的ISO 26262标准要求,另外,从SoC也好,SoD也好,赛灵思都能够以一个单独的Versal Edge器件来涵盖。


对于支持应用的软件堆栈,除了在汽车领域有Caffe、TensorFlow、PyTorch,在机器人和工业领域也有很多的框架,包括ROS、ROS2,还有现在在行业里势头非常猛的GAZEBO。另外,也可以用Versal AI对他的系统框架进行扩展,包括XRT,这是赛灵思的一个运行环境,包括底层很多的库,如DSP的库和视觉的库。

 

  • 第三点,能够为边缘和终端提供全球最具可扩展性且灵活应变的平台,实现很高的性能,这主要是在各个性能层级上有更多的器件,另外由于赛灵思 ACAP的可编程性质,能比竞争对手提供更多的灵活性。


说到Versal AI Edge的灵活应变性,不仅包含域架构,也就是DSA,还有动态的功能交换,我们叫做DFX。DSA也就是对引擎进行区隔,来实施相应算法,在这样区隔的过程当中能够确保的是不断适应未来一些技术的变化,能够实时进行更新,比如说激光雷达在行业的更新换代也非常迅速,但是有了DSA的支持,能够确保跟上最新的算法。


这个机制主要是通过算法来实现的,无论是硬件还是软件都可以通过在线下载更新的方式来进行更新,区别于其他产品,我们不仅仅更新软件,更重要的是我们可以对芯片进行重新配置来优化性能,有点像特斯拉可以对车辆里程和速度直接做软件的在线升级,如果可以对硬件做这样的在线升级以迅速适应未来的需求,这是一个非常大的提升。


再来说DFX,DFX可以把逻辑器件交换到不同的算法当中,所以假设你有很多的逻辑器件在同时使用,通过这样的方式能够对解决方案进行优化,节约大量的成本和功耗,这是只有赛灵思可以做到的,ASSP、GPU和CPU都是做不到的。
 


关于Versal AI Edge的可扩展性,上图一共列了七个器件,每一个都有车规级的产品,最左侧主要是做传感器还有加速的,中部是做传感器融合的,最右侧主要是实现加速的,8个可以做到200TOPS,4个可以做到240TOPS。


以VE1752为例,它是一个AI引擎的主打款,会较早实现量产,还有前面提到的加速器RAM,它是会在比较小规格的器件上,也就是最左侧的四个器件当中提供支持。还有VE2202,它能够支持PCIE,另外还有一个32G的接收器。
 


基于以上7个产品组合,我们来比较一下之前赛灵思的竞争对手英伟达的产品,Jetson是只有低端和中端,没有高端,T4是一个数据中心的加速器卡,仅仅关注高端,没有低端产品。另外Orin是仅有高端和低端,而忽视了中间这一块的性能需求,也就是性能很高,但可以进行被动散热的这样一款产品,他这里30瓦是需要主动散热的。


英伟达给出的解决方案是,你可以同时使用两个器件来满足相应的标准,这当然是可以的,但是这样做会增加成本功耗和系统设计的复杂性,如果用赛灵思的Versal AI Edge的话,只需要一个器件,在同样的软件生态系统,在同一个节点,在同一代产品,在同样的模式和同一个库的环境下均可使用,使用起来非常方便,而且更加经济。


Versal AI Edge的可扩展性方面,也可以和其他竞争对手进行比较,包括英特尔和TI(德州仪器),和高通的一个新的平台,还有恩智浦等等,他们要么是只关注低端,要么是关注高端,没有哪一家可以做到低中高的全覆盖。


结语


Versal AI Edge系列的设计文档和支持已对早期系列的设计文档和支持已对早期试样用户开放,预计于2022 年上半出货,同时还将有车规级器件路线图。


赛灵思推出边缘计算产品的时间点不算早,但对于赛灵思本身而言,Versal AI Edge系列的推出可以进一步丰富其产品组合,另外对于客户而言,如果能在不讲性能的基础上降低系统成本的话,市场认可只是一个时间问题。