加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • Transformer何方神圣?
    • 为什么要在端侧、边缘侧落地大模型?
    • 如何在端侧、边缘侧高效部署Transformer?
    • Transformer在视觉领域的潜力?
    • NPU在端侧、边缘侧部署大模型的挑战是什么?
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

大模型需求暴增,NPU有望在端边落地部署

2023/06/06
7309
阅读需 10 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

ChatGPT的火爆,让人们意识到AI其实有着更高的上限,也让业界更多关注到其背后的Transformer大模型。除了云端、除了自然语言处理,业界正在思考:是否可以让Transformer在端侧、边缘侧高效部署?是否可以让Transformer在计算机视觉领域发挥出更大潜能?

可能吗?爱芯元智已经开始了这一尝试。

Transformer何方神圣?

GPT大模型,全称Generative Pre-training Transformer,是一种使用自回归模型进行语言建模的预训练模型。当下大火的ChatGPT,以及一系列AI模型,其实都离不开Transformer,它是当前各种大模型所采用的主要结构。

要理解这个模型,可以先追溯一下历史。业界很早就在探索一件事——如果计算机能够像人类一样理解语言该有多好,出于这个目的,业界开始了对自然语言处理/NLP的研究。

Transformer模型是谷歌在2017年推出的,可以说,这是深度算法领域的关键一跃,奠定了当下通用人工智能的基础。这个模型可以同时处理输入序列中所有位置的信息,避免了传统的逐个处理输入序列的方式,从而可以更加高效地进行文本处理。

接下来,综合了各种技术和语言模型之后,Transformer模型越来越强大,并在此基础上诞生了BERT、GPT等,这些语言模型应用在自然语言生成、机器翻译、问答系统等,为人工智能领域的发展带来了新的活力。

为什么要在端侧、边缘侧落地大模型?

爱芯元智联合创始人、副总裁刘建伟认为,大模型正在使行业进入开发新范式的拐点,它也将带来一些新机会。首先从需求角度来看,业界对端侧和边缘侧AI加速是有强需求的。只不过一直以来,AI落地标准化场景效果较好,而在一些通用场景中,除非增加针对性的投入,才能进一步提升应用效果,但这同时意味着更高的成本,成为AI加速应用落地的主要困难。

其次,从大模型能够带来的改变来看,它能够降低边际场景的AI成本,因为它不需要对长尾场景做专门的、从头到尾的适配,通过部署预训练的大模型就能达到比较好的效果,这将使AI在端侧和边缘侧的应用再上一个台阶。

如何在端侧、边缘侧高效部署Transformer?

相比于在云端用GPU部署Transformer大模型,在边缘侧、端侧部署Transformer最大的挑战首先来自功耗,什么平台能够“接得住”它?这是核心考量。

当前,业界通过跑SwinT模型来看平台对Transformer的支持情况。爱芯元智今年3月推出的第三代高算力、高能效比SoC芯片——AX650N,在运行SwinT时表现出色:361 FPS的高性能、80.45%的高精度、199 FPS/W的低功耗以及原版模型且PTQ量化的易部署能力,这些特性使其成为端侧和边缘侧部署Transformer的首选平台。

具体来看,361帧的高性能可媲美汽车自动驾驶领域基于GPU的高端域控SoC;80.45%的高精度成绩同样高于市面平均水平;199 FPS/W的速度体现出低功耗的特点,对比于目前基于GPU的高端域控SoC,有数倍优势。此外,AX650N部署方便,GitHub上的原版模型可以在爱芯元智平台上高效运行,不需要对模型做修改,不需要QAT重新训练。

并且,AX650N支持低比特混合精度,用户如果采用INT4,可以极大减少内存和带宽占用率,可以有效控制端侧边缘侧部署的成本。这些特性都保证了AX650N最终落地效果更好用、更易用,大幅提升了用户的效率。

据介绍,AX650N已适配包括ViT/DeiT、Swin/SwinV2、DETR在内的Transformer模型,在DINOv2也达到30帧以上运行结果,这也使得用户在下游进行检测、分类、分割等操作更加方便。基于AX650N的产品也已经在智慧城市、智慧教育、智能制造等计算机视觉领域发挥出重要作用。

Transformer在视觉领域的潜力?

谈及Transformer在视觉领域的潜力,刘建伟表示,视觉应用凡是对环境有感知、理解需求的,比如智慧城市、智能机器人、自动驾驶等领域需要用摄像头去看画面的,对Transformer都有比较强的需求。

不过,视觉应用场景非常碎片化,这也是以往CNN网络遇到的一个普遍问题,这对Transformer来说是否能发挥所长?

爱芯元智认为,Transformer模型具有一定的画面语意理解能力,无论是什么场景,它已经具备了基本的理解。在以往的应用中,常见的问题是:这个场景没见过,或是这个场景下的数据没有标注过,因此就无法落地了。而Transformer让大家看到了解决这个问题的希望。

以河道垃圾监测为例:当河道上出现了一种垃圾,传统流程是采集数据—标注—训练,如果突然出现一种新的垃圾,是之前数据标注/训练没有覆盖的,系统就无法识别,就必须重新采集。但有了采用无监督训练的大模型之后,无论出现什么样新类型的垃圾,系统都能自主推理和判断。

事实上,Transformer在视觉领域的尝试其实一直都有,比如SwinT就是把Transformer用在视觉领域的一个模型。它和传统CNN训练方法一样,只是上限更高,并且随着NLP领域突飞猛进的发展,新的趋势包括通过无监督、自监督的训练方式。

接下来,爱芯元智AX650N将会针对Transformer结构进行持续优化,并且探索更多的Transformer大模型,例如多模态大模型,不断让Transformer在爱芯元智平台上得到更好的落地效果。值得一提的是,爱芯元智还将推出开发板,满足开发者对Transformer深度研究的需求,探索更丰富的产品应用。

NPU在端侧、边缘侧部署大模型的挑战是什么?

爱芯元智认为,基于NPU在端侧、边缘侧部署Transformer大模型,其挑战可以从软硬件两方面来看。从硬件架构角度来讲,NPU、TPU等都属于特定领域相关的架构,需要早期定位就比较准,后续才能进行更有针对性的功能优化。

软件方面,相对于CNN,Transformer是一个比较新的网络,推理时一般要求做量化,这往往要求一定的工程经验。爱芯元智在这方面探索较早,例如SwinT量化精度、浮点精度在1%以内的误差,都属于业内领先。

“从目前的反馈来看,客户的体验是觉得我们的平台比较好用、易用,好用是指性能较高,能够实时跑更多的应用、对场景的适应性比较强;易用是上手速度比较快,想跑的应用基本上都能跑起来,量产周期也能缩短”,爱芯元智相关负责人表示。

“爱芯元智将继续努力打造基于芯片+软件的端侧、边缘侧人工智能算力平台,加速基于Transformer的大模型在端侧、边缘侧落地的节奏,最终实现普惠AI造就美好生活的企业愿景”,爱芯元智创始人、CEO仇肖莘女士如是说。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
STM32F407IGT6 1 STMicroelectronics High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC

ECAD模型

下载ECAD模型
$13.79 查看
MKL02Z32CAF4R 1 Freescale Semiconductor Kinetis L 32-bit MCU, ARM Cortex-M0+ core, 32KB Flash, 48MHz, WL-CSP 20

ECAD模型

下载ECAD模型
$2.7 查看
MC9S12A256CPVE 1 Rochester Electronics LLC 16-BIT, FLASH, 25MHz, MICROCONTROLLER, PQFP112, LQFP-112
$32.12 查看

相关推荐

电子产业图谱

与非网资深行业分析师。主要关注人工智能、智能消费电子等领域。电子科技领域专业媒体十余载,善于纵深洞悉行业趋势。欢迎交流~