4大亮点、5大竞争力,合肥君正「AIE+Magik」对垒智能视觉领域。

 

习惯在针尖上跳舞的合肥君正,在萌芽之时就认识到AI的重要性。2014年前后,视频芯片市场已有众多厂商,且大多鏖战成像和传输。彼时的君正意识到,用模仿的方式硬生生地去打这个市场难以出头且毫无价值,而AI将成为下一战场的关键。从那时起,AI与算法部门成为君正最早的技术部门之一。7年白驹过隙,那些或深或浅的脚印现已踏出一条康庄大道:最近,君正正式公开了自己的AI硬件加速引擎和AI开发平台Magik。君正视频事业部副总经理刘远表示,这套技术从开始至今,经历了各方面的锤炼:“从T01到T02再到T31/T40,从computer vision到deep learning再到混合量化,从安防摄像机到低功耗门铃再到立体机器视觉,从Tensorflow/Caffe到Magik,从第一家客户试探性接入到大量产品算法落地,这套技术已经从创新研发走到普惠应用。”刘远说道。这历时多年的武器,将往视频行业投下一枚怎样的石头,又怎样协助下游客户落地更具竞争力的产品?

 

直奔落地的一整套「芯片+AI算力+AI开发平台」解决方案

如何为端侧AI应用提供一套成本亲和,性能出众,功耗低,又易于落地的基础技术组件?这正是合肥君正一直在思考的命题,也是君正AI技术研发的核心目标。刘远指出,经过多年摸索,这样一套基础技术组件如今包含:

 

  • 一系列落地芯片:布局完备,覆盖高中低阶,除AI以外具备完整的各方面竞争力,成本亲和,性能均衡,效果出众,功耗领先,被市场认可并且持续大量出货。这就像AI和算法落地生根的土壤,越广阔越好。一套先进的AI加速硬件:优秀的PPA(Performance, Power, Area),兼具高性能和灵活性,并且通过有效创新,真正突破AI推理在端侧产品中的各种瓶颈,使得高发热,高带宽,成本冗余等在实际产品中不再是问题。一个完善的算法开发平台:敏捷的算法移植过程,除了提供一键式算法部署,还提供最先进的量化感知训练方法论,提供典型网络的全流程开源代码,让算法专家专注于挖掘痛点与数据的价值。

 

君正的整体AI技术架构如下图:

 

 

其中AI-Engine(AIE)是一整套AI加速硬件,包括CPU,NNA,SIMD,协处理器和RAM Pool等多重加速技术。主要优势是“三高三低”:算力高,利用率高,灵活性高;功耗低,外围成本低,带宽需求低。Magik是基于AIE的算法开发平台,除了基本的工具链还包含其他丰富的辅助开发资源。并且支持后量化和更先进的量化感知训练(QAT)。“卷积神经网络的本质是计算,幸运的是,君正一直是国内为数不多的完整CPU计算技术的拥有者,这一点,奠定了我们的AI技术具有较高的发展起点。”刘远说道,“而Magik融合了我们这几年在视觉产品落地上的各种经验,能够发挥AIE独特的领先性能。二者搭配,呈现在行业客户面前的就是一整套完整的‘芯片+AI算力+AI开发平台’的解决方案,使得应用者非常容易落地。”利用这套平台,可以带来多方面长远的优势:

 

  • 产品化优势:这套技术可运行于君正当前和未来的各种芯片当中,下游产业链条成熟,碎片化风险低,生态一致性有保障;商业化优势:已有大量芯片持续出货,品牌背书充足,能加快算法赋能和变现的节奏;成本优势:包括eBOM成本,算法成本,研发成本等;性能优势:可获得更高的物理算力,更高的利用率;低功耗优势:体现在产品端就是发热明显低,续航更好,散热无忧;

 

“AIE+Magik是君正原生创新的技术,完全自主。T40作为搭载这套技术的最新一代芯片,却并非第一代产品。”刘远强调,“在这之前,我们经过了T01/T02/T31等几代量产芯片的验证,积累了大量宝贵经验,到T40这里,AIE+Magik已经十分成熟”。

 

AIE—有效突破端侧AI的算力瓶颈

AI-Engine(AIE)是君正完全自主创新的一套AI加速硬件组合,广泛支持各类神经网络加速,如CNN/RNN/GCN等,也支持传统CV算法和平面运算的加速。得益于公司对CPU技术的掌握,AIE实现了其他一般芯片公司难以做到的CPU与NPU的同构设计。

 

 

在全球各种不同的AI加速技术路线中,DSA(Domain Specific Architecture)尤其适合端侧推理场景。AIE引用了多种DSA的设计理念,实现了一整套满足复合算法加速的硬件组成:

 

  • 支持SMT多核架构的XBurst2 CPU,凝聚了君正团队20多年的CPU技术精华;128bit/512bit/1024bit位宽的SIMD指令集,针对向量运算加速;算力高达2T - 32T的NN加速阵列,针对张量计算加速,支持混合位宽量化协处理单元,对其他运算加速;高效RAM pool,深度优化内存带宽吞吐实测运行功耗很低,8T算力场景下典型功耗小于500mW,能耗比最低达到了0.05W/T级别

 

“与云上的AI芯片加速不同,在端侧芯片上,4T算力曾经是天花板,这并不是因为硬件无法将算力继续提高,而是因为端侧产品在算力以外有太多的制约因素。”刘远解释道,“如果不优先把NPU内部的PPA、带宽、功耗等关键障碍解决,即使再提高计算矩阵的规模,实际芯片也大概率发挥不出来。”归纳起来,端侧算力的瓶颈主要集中在:产品端的资源限制,算法多样性的挑战和算法开发环境。

 

 

端级芯片在计算资源和成本都面临限制,无法像云端服务器那么丰富和冗余。在终端售价,RAM内存容量,ROM模型存储,发热控制,DDR的带宽等方面都面临极大挑战。所以端级产品需要与云端不同的AI加速技术。君正AIE特别针对端级应用设计,采用专用硬件架构DSA(Domain Specific Architecture),与常见的NPU相比,有明显的规格优势:

 

  • MAC利用率提升1到2倍,推理速度提升2到4倍;算法运行的RAM/ROM消耗减少50%~70%;带宽降低35%~85%;发热减少40%~80%。

 

无论2C还是2B/G市场,不同应用对AI算法的要求差异很大,即使是相同功能的算法也难以做到单一模型覆盖所有场景。其次人工智能学术领域仍然在发展,虽然变化的速度减缓,但未来仍然会不断出现新的网络,新的流程,新的算子,新的训练方法等等,这些决定了目前的AI加速硬件还没有到达统一收敛的阶段。端级算法本身呈现多样性,碎片化的客观现状。这就要求芯片中硬件的加速能力非常灵活,能够应对各种未知算子/算法/网络/流程的变化,这一点对AI引擎的设计提出巨大挑战。君正AIE结合了多年积累的CPU技术,摸索了一套兼顾高性能和灵活性的创新技术:

 

  • 算力达2T ~ 32T的NN加速阵列,实现千倍加速比;非标计算协处理单元,实现百倍加速比;128bit到1024bit位宽的SMID指令集,实现几十倍加速比;RAM Pool系统,显著降低带宽;高主频多核多线程XBurst®2 CPU。

 

“过去至今各种行业摄像机搭载的AI算法,大多存在‘性能冗余但利用率低’、‘成本偏高但有浪费’、‘功能可用但难以普及’等情况,随着搭载AIE+Magik的T40逐步到位,能做到8T算力,小于0.5W的加速功耗,并且内置了DDR,这些痛点会得到很大改善。”刘远表示。

 

Magik—全栈式深度神经网络开发平台

硬件是躯体,软件和算法是灵魂。如果是AIE是躯体,那么Magik就是灵魂。Magik是一个面向端侧AI应用的全栈式开发平台。与一般的AI开发工具链相比,Magik包含了更丰富的内涵:

 

  • 全流程,一体化。集模型训练、优化转换、部署推理于一体,并提供模型检查器、调优器、性能分析器等工具;多框架。全面支持pytorch/tensorflow/mxnet/caffe/onnx等主流框架;量化感知训练(QAT)。支持2/4/8/16任意精度混合训练及转换优化,在保证精度的同时,能充分利用AIE的计算资源;灵活性。同时支持QAT和后量化方案,加速应用灵活部署;开放性。开放人脸/人形等常见算法的从训练到部署全流程代码,以及经典网络的backbones,增强易用性,加速落地。

 

“Magik不仅仅是一个AI转换工具链,还是一个丰富的开发平台,”刘远补充道,“有工具链,framework插件,Model Zoo,常用的backbones,还包括一般摄像机非算法的支撑功能,例如成像,编码,帧数据流,内存复用优化,存储降维,多目同步,甚至内存泄露防范等都有体现在内,真的值得用一用”。Magik的一大特色是支持较为先进的QAT方法论。端级AI应用目前大多还停留在后量化方法阶段,相比QAT,后量化更像是端级AI的过渡阶段。后量化过程相对简单,但精细度不足,算力容易形成浪费,功耗成本带宽等难以解决。QAT方法能够更精细地根据加速硬件的特点调整训练细节,从而发掘端级AI算力的潜力,达到提升算力利用率,降低功耗,带宽和成本的效果。使用Magik的开发过程很容易上手,流程示意图如下:

 

 

“Magik就像一把‘云梯’,帮助客户快速落地AI算法和视觉产品,它能给行业带来长期的助力”。与AIE的发展相辅相成,Magik具有未来小型生态的潜力,其坚实基础是君正过去,目前和未来所有的算力芯片,只要君正芯片能够覆盖到的市场领域,都可以发挥作用。

 

春风化雨时,润物细无声

“早几年当AI的浪潮滚滚而来,喧嚣尘上之时,我们并没有太多发声,但并不代表我们没有行动。”刘远讲道,“当东西没有真正拿得出手时,我们自己心里这一关就过不去。而现在,AIE+Magik这一套技术,已经服务了很多客户,并让不少人尝到了甜头”。

 

据了解,AIE+Magik已经成功服务了超过几十家客户,包括一些行业知名品牌,传统算法公司,行业监控企业,大型互联网品牌,运营商以及初创极客。这些服务,远超算法开发这个层面。要实现设备承载不同的算法运行,首先需要克服算法计算标准化的困难,但这只是端侧AI落地过程中挑战的冰山一角。

 

除此之外,设备的产品属性,可量产属性,消费者体验属性以及开发周期等方面都需要大量的投入。君正完成了各种典型视觉产品的方案积累,例如安防监控,物联网视觉,低功耗成像,智慧办公,文字扫描,生物识别,立体视觉等领域都能提供完整的解决方案,让算法赋能只需要做简单加法就可以落地。“这样做有没有社会价值,有多大的社会价值,是推动我们每一项产品和技术研发的精神内核。”北京君正副总经理黄磊曾多次强调。在AIE+Magik的落地过程中,赋能下的各大下游企业的产品价值,都是对这一说法的精准注脚。“有一家算法专业型的客户,本身有很强的算法开发能力,基于君正芯片和Magik平台,开发了全新的产品系列。新产品系列比之前的老产品,成本下降了一个数量级,实现小型化。

 

客户还独立完成了人脸识别算法的移植,运行效果十分良好。”刘远介绍说,“与此同时,另一家知名的销售专业型客户,本身算法能力不强,但是非常清楚消费者痛点。基于君正芯片和Magik平台,在君正的辅助下建立了算法团队,利用Magik平台的开源代码和网络,基于自己的数据资源训练了人形侦测算法,客户利用消费者优势,不断对算法进行迭代,最终以运营方式上线算法,消费者反馈良好,运营转化率高于预期。”不知不觉间,优质的服务成为了君正在智能视觉市场的核心竞争力之一。

 

目前随着T40芯片到位,很快将有更多搭载AIE+Magik的产品陆续进入市场。基于T40打造的视觉产品,能做到4T/8T算力,能耗比最低达到0.05W/T级别,外围BOM很简单,芯片售价做到几个美金。配合Magik和各种成熟方案资源,T40有望成为AI视觉大市场的细雨春风。