边缘AI制胜之道：MCU轻量化加速

现今的嵌入式产品需要在本地具备智能，而不必承担云运算所需的成本或功耗。这正是边缘AI（Edge AI）在内建微控制器（MCU）的嵌入式系统中逐渐成为基本需求的原因，热门应用包括：工业感测、智能家居与汽车子系统等。虽然AI/ML模型部署已变得更容易，但真正的挑战往往出现在设计流程的后期。开发者需要能够判断系统是否能在严格的功耗预算下持续运行，延迟是否在所有操作条件下保持受控且可预测，以及执行AI运算管道（Pipeline）引入了多少系统负担。解决这些因素对于确保在真实应用中可靠、高效且可扩展的部署至关重要。

在这个阶段，成功的衡量标准在于工作负载能否高效利用底层的运算架构。

边缘 AI管道的实现

大多数边缘 AI 系统遵循一个常见结构：传感器数据 → 预处理（DSP） → AI 推理（ML） → 动作

从实现角度来看：

预处理：涉及大量DSP操作，例如滤波、分窗和特征提取

推理：主要由矩阵乘法和卷积类运算主导

动作：通常较轻量，但对延迟非常敏感

一个关键观察是：DSP与ML紧密耦合。在许多工作负载中，预处理可能消耗总计算和能量的相当大部分。仅优化推理是不够的，系统必须同时高效处理这两个阶段。

边缘 AI 计算谱系

基于MCU的边缘 AI 架构通常分为三类：

轻量化加速：紧密集成的加速器，专为小型、常开型工作负载设计。重点在于高效执行DSP与ML阶段的向量和矩阵运算。

中端NPU（Tiny-NPU）：专用推理引擎，为较大模型提供更高吞吐量，但会引入额外的内存和调度复杂性。

高性能NPU：面向计算密集型工作负载，例如高分辨率视觉或多模型执行。这类架构需要大量的内存带宽和功耗。

这些类别通常以峰值TOPS或吞吐量进行比较。但在MCU级系统中，这种比较往往具有误导性，因为主导约束因素是能耗、内存和确定性，而不应是峰值计算能力。

边缘 AI 工作负载的实际需求

现实中的边缘AI部署遵循一致的模式。模型通常较小，大小仅为几十到几百KB，并在常开系统中持续或周期性运行。输入一般是低带宽数据流，例如音频信号或传感器读数，成功的关键在于延迟的可预测性，而不仅仅是降低平均延迟。常见应用包括关键词检测与音频分类、利用IMU数据的手势识别、时间序列信号中的异常检测，以及低分辨率的存在检测。

在这些环境中，主要约束并非峰值计算性能，而是整体系统效率。每次推理的能耗往往比原始吞吐量更重要，而内存占用和数据传输对性能的影响通常大于可用处理能力。确定性执行与一致的延迟也是关键要求。因此，优化的重点从最大化基准性能转向实现系统层面的高效与可靠运行。

这意味着优化目标从“最大性能”转向“系统级效率”。

芯科科技MVP：匹配AI工作负载的计算能力

Silicon Labs（芯科科技）的矩阵向量处理器（MVP）正是围绕这种工作负载特性而设计的。与其完全依赖M33内核，不如将计算工作卸载到MVP引擎来完成以下功能：

机器学习计算线性代数运算矩阵与向量运算（包括复数与实数，DSP）

许多用于ML推理的数学运算同样也会在信号处理过程中使用。MVP同时加速这两类运算，从而提升整体系统效率，而不仅仅是加快神经网络的执行速度。

架构层面的启示：系统效率来源何处

这种方法通过加速运算并与更广泛的系统架构紧密集成来带来优势。

1. 减少数据传输：在许多嵌入式系统中，数据在内存与计算单元之间的移动消耗的能量往往比计算本身更多。紧耦合的加速器并不能完全消除数据传输，但能让其更高效。集成的加载-存储与DMA机制允许数据以可预测的访问模式在内存与加速器之间流动，减少CPU干预，避免在不同计算子系统之间不必要的复制。相比之下，独立NPU往往需要额外的内存传输与同步开销，从而增加能耗与延迟。

2. 消除系统开销：独立NPU会引入调度、同步与上下文切换的开销。这些在基准测试中常被忽略，但在常开系统中却十分显著。通过将加速集成到MCU的执行流程中，MVP能最大限度减少这些开销。3. 更可预测的执行：实时系统需要受控的延迟。具有固定执行特性的轻量化加速器能够提供可预测的时序。而为吞吐量优化的 NPU 可能因内存争用、排队或批处理而引入延迟的波动。4. 统一的DSP与ML加速：由于MVP同时加速信号处理与机器学习基础运算，它避免了分别优化的需求。这在DSP阶段占据能耗主导的工作负载中尤为重要。

现实中的AI工作负载

音频与语音：关键词检测与声音分类系统在严格的功耗预算下持续运行。延迟必须低且一致，以实现实时响应。

运动与交互：手势识别系统依赖连续的传感器数据流与快速分类。这类系统受益于传感器处理与推理之间的紧密耦合。

工业监测：预测性维护应用处理时间序列数据以检测异常。它们需要确定性执行，并在受限能耗预算下保持长期可靠性。

低分辨率视觉：嵌入式视觉应用通常处理小尺寸图像，以保持在内存与计算限制范围内。效率比吞吐量更为关键。

连接型边缘AI：设备越来越多地结合本地推理与无线连接。需要高效计算来平衡AI工作负载与通信任务。许多这类AI工作负载并未充分利用高吞吐量NPU。它们往往更受益于与MCU内存系统和执行流程紧密耦合的低开销、节能型加速。

轻量化加速在边缘AI部署中的适配性

轻量化加速特别适合以下场景：

数字信号

这些特性与许多当前MCU边缘AI部署的需求高度契合，使轻量化加速成为大部分AI工作负载的有效方法。

超越计算：工具与生态系统

仅有高效硬件不足以确保边缘AI部署成功。开发者还需要简化整个流程的软件栈，从模型优化与部署到调试与长期维护。这包括量化与剪枝等技术的工作流、性能分析与调试工具、与固件及RTOS环境的集成，以及支持模型开发的数据收集与训练管线。

芯科科技提供了包括EFR32第二代无线SoC系列与SiWx917在内的硬件平台，以及面向开发者的软件工具、TensorFlow Lite Micro支持，并与Edge Impulse和SensiML等生态伙伴合作。探索AI/ML解决方案：https://cn.silabs.com/applications/artificial-intelligence-machine-learning

在边缘平衡计算、内存与能耗

在MCU级边缘AI中，峰值计算性能很少是决定性指标。成功的系统是那些能在严格约束下平衡计算、内存与能耗的系统。像MVP这样的轻量化加速架构与现实工作负载需求高度契合。通过减少数据传输、最小化系统开销并同时支持DSP与ML，它们能够实现高效且可预测的执行。

对于许多边缘 AI 应用而言，问题不在于如何最大化计算，而在于如何以最有效的方式使用“恰到好处”的计算能力。

边缘AI制胜之道：MCU轻量化加速

边缘 AI管道的实现

边缘 AI 工作负载的实际需求

架构层面的启示：系统效率来源何处

相关推荐