• 正文
  • 相关推荐
申请入驻 产业图谱

边缘AI制胜之道:MCU轻量化加速

3小时前
150
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

现今的嵌入式产品需要在本地具备智能,而不必承担云运算所需的成本或功耗。这正是边缘AI(Edge AI)在内建微控制器MCU)的嵌入式系统中逐渐成为基本需求的原因,热门应用包括:工业感测、智能家居与汽车子系统等。虽然AI/ML模型部署已变得更容易,但真正的挑战往往出现在设计流程的后期。开发者需要能够判断系统是否能在严格的功耗预算下持续运行,延迟是否在所有操作条件下保持受控且可预测,以及执行AI运算管道(Pipeline)引入了多少系统负担。解决这些因素对于确保在真实应用中可靠、高效且可扩展的部署至关重要。

在这个阶段,成功的衡量标准在于工作负载能否高效利用底层的运算架构。

边缘 AI管道的实现

大多数边缘 AI 系统遵循一个常见结构:传感器数据 → 预处理(DSP) → AI 推理(ML) → 动作

从实现角度来看:

预处理:涉及大量DSP操作,例如滤波、分窗和特征提取

推理:主要由矩阵乘法和卷积类运算主导

动作:通常较轻量,但对延迟非常敏感

一个关键观察是:DSP与ML紧密耦合。在许多工作负载中,预处理可能消耗总计算和能量的相当大部分。仅优化推理是不够的,系统必须同时高效处理这两个阶段。

边缘 AI 计算谱系

基于MCU的边缘 AI 架构通常分为三类:

轻量化加速:紧密集成的加速器,专为小型、常开型工作负载设计。重点在于高效执行DSP与ML阶段的向量和矩阵运算。

中端NPUTiny-NPU):专用推理引擎,为较大模型提供更高吞吐量,但会引入额外的内存和调度复杂性。

高性能NPU:面向计算密集型工作负载,例如高分辨率视觉或多模型执行。这类架构需要大量的内存带宽和功耗。

这些类别通常以峰值TOPS或吞吐量进行比较。但在MCU级系统中,这种比较往往具有误导性,因为主导约束因素是能耗、内存和确定性,而不应是峰值计算能力。

边缘 AI 工作负载的实际需求

现实中的边缘AI部署遵循一致的模式。模型通常较小,大小仅为几十到几百KB,并在常开系统中持续或周期性运行。输入一般是低带宽数据流,例如音频信号或传感器读数,成功的关键在于延迟的可预测性,而不仅仅是降低平均延迟。常见应用包括关键词检测与音频分类、利用IMU数据的手势识别、时间序列信号中的异常检测,以及低分辨率的存在检测。

在这些环境中,主要约束并非峰值计算性能,而是整体系统效率。每次推理的能耗往往比原始吞吐量更重要,而内存占用和数据传输对性能的影响通常大于可用处理能力。确定性执行与一致的延迟也是关键要求。因此,优化的重点从最大化基准性能转向实现系统层面的高效与可靠运行。

这意味着优化目标从“最大性能”转向“系统级效率”。

芯科科技MVP:匹配AI工作负载的计算能力

Silicon Labs(芯科科技)的矩阵向量处理器(MVP)正是围绕这种工作负载特性而设计的。与其完全依赖M33内核,不如将计算工作卸载到MVP引擎来完成以下功能:

机器学习计算线性代数运算矩阵与向量运算(包括复数与实数,DSP)

许多用于ML推理的数学运算同样也会在信号处理过程中使用。MVP同时加速这两类运算,从而提升整体系统效率,而不仅仅是加快神经网络的执行速度。

架构层面的启示:系统效率来源何处

这种方法通过加速运算并与更广泛的系统架构紧密集成来带来优势。

1. 减少数据传输:在许多嵌入式系统中,数据在内存与计算单元之间的移动消耗的能量往往比计算本身更多。紧耦合的加速器并不能完全消除数据传输,但能让其更高效。集成的加载-存储与DMA机制允许数据以可预测的访问模式在内存与加速器之间流动,减少CPU干预,避免在不同计算子系统之间不必要的复制。相比之下,独立NPU往往需要额外的内存传输与同步开销,从而增加能耗与延迟。

2. 消除系统开销:独立NPU会引入调度、同步与上下文切换的开销。这些在基准测试中常被忽略,但在常开系统中却十分显著。通过将加速集成到MCU的执行流程中,MVP能最大限度减少这些开销。3. 更可预测的执行:实时系统需要受控的延迟。具有固定执行特性的轻量化加速器能够提供可预测的时序。而为吞吐量优化的 NPU 可能因内存争用、排队或批处理而引入延迟的波动。4. 统一的DSPML加速:由于MVP同时加速信号处理与机器学习基础运算,它避免了分别优化的需求。这在DSP阶段占据能耗主导的工作负载中尤为重要。

现实中的AI工作负载

音频与语音:关键词检测与声音分类系统在严格的功耗预算下持续运行。延迟必须低且一致,以实现实时响应。

运动与交互:手势识别系统依赖连续的传感器数据流与快速分类。这类系统受益于传感器处理与推理之间的紧密耦合。

工业监测:预测性维护应用处理时间序列数据以检测异常。它们需要确定性执行,并在受限能耗预算下保持长期可靠性。

低分辨率视觉:嵌入式视觉应用通常处理小尺寸图像,以保持在内存与计算限制范围内。效率比吞吐量更为关键。

连接型边缘AI:设备越来越多地结合本地推理与无线连接。需要高效计算来平衡AI工作负载与通信任务。许多这类AI工作负载并未充分利用高吞吐量NPU。它们往往更受益于与MCU内存系统和执行流程紧密耦合的低开销、节能型加速。

轻量化加速在边缘AI部署中的适配性

轻量化加速特别适合以下场景:

    在严格功耗预算下运行的常开系统小到中型AI模型包含大量数字信号处理(DSP)组件的工作负载需要确定性时序的应用

这些特性与许多当前MCU边缘AI部署的需求高度契合,使轻量化加速成为大部分AI工作负载的有效方法。

超越计算:工具与生态系统

仅有高效硬件不足以确保边缘AI部署成功。开发者还需要简化整个流程的软件栈,从模型优化与部署到调试与长期维护。这包括量化与剪枝等技术的工作流、性能分析与调试工具、与固件及RTOS环境的集成,以及支持模型开发的数据收集与训练管线。

芯科科技提供了包括EFR32第二代无线SoC系列与SiWx917在内的硬件平台,以及面向开发者的软件工具、TensorFlow Lite Micro支持,并与Edge Impulse和SensiML等生态伙伴合作。探索AI/ML解决方案:https://cn.silabs.com/applications/artificial-intelligence-machine-learning

在边缘平衡计算、内存与能耗

在MCU级边缘AI中,峰值计算性能很少是决定性指标。成功的系统是那些能在严格约束下平衡计算、内存与能耗的系统。像MVP这样的轻量化加速架构与现实工作负载需求高度契合。通过减少数据传输、最小化系统开销并同时支持DSP与ML,它们能够实现高效且可预测的执行。

对于许多边缘 AI 应用而言,问题不在于如何最大化计算,而在于如何以最有效的方式使用“恰到好处”的计算能力。

芯科科技

芯科科技

Silicon Labs (NASDAQ:SLAB) 是物联网、互联网基础设施、工业控制、消费和汽车市场硅、软件和系统解决方案的领先提供商。 解决电子行业最麻烦的问题,为客户在性能、节能、连接和设计简洁性方面提供了显着的优势。 Silicon Labs拥有卓越的软件和混合信号设计专业知识,依托世界一流的工程设计团队,可让开发人员获得所需的工具和技术,迅速推进并以简捷的方式完成初始概念到最终产品过程。

Silicon Labs (NASDAQ:SLAB) 是物联网、互联网基础设施、工业控制、消费和汽车市场硅、软件和系统解决方案的领先提供商。 解决电子行业最麻烦的问题,为客户在性能、节能、连接和设计简洁性方面提供了显着的优势。 Silicon Labs拥有卓越的软件和混合信号设计专业知识,依托世界一流的工程设计团队,可让开发人员获得所需的工具和技术,迅速推进并以简捷的方式完成初始概念到最终产品过程。收起

查看更多

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录

Silicon Labs公司(NASDAQ:SLAB)是物联网、互联网基础设施、工业控制、消费电子和汽车等市场领域中的芯片、软件和系统解决方案的领先提供商。