现今的嵌入式产品需要在本地具备智能,而不必承担云运算所需的成本或功耗。这正是边缘AI(Edge AI)在内建微控制器(MCU)的嵌入式系统中逐渐成为基本需求的原因,热门应用包括:工业感测、智能家居与汽车子系统等。虽然AI/ML模型部署已变得更容易,但真正的挑战往往出现在设计流程的后期。开发者需要能够判断系统是否能在严格的功耗预算下持续运行,延迟是否在所有操作条件下保持受控且可预测,以及执行AI运算管道(Pipeline)引入了多少系统负担。解决这些因素对于确保在真实应用中可靠、高效且可扩展的部署至关重要。
在这个阶段,成功的衡量标准在于工作负载能否高效利用底层的运算架构。
边缘 AI管道的实现
大多数边缘 AI 系统遵循一个常见结构:传感器数据 → 预处理(DSP) → AI 推理(ML) → 动作
从实现角度来看:
预处理:涉及大量DSP操作,例如滤波、分窗和特征提取
推理:主要由矩阵乘法和卷积类运算主导
动作:通常较轻量,但对延迟非常敏感
一个关键观察是:DSP与ML紧密耦合。在许多工作负载中,预处理可能消耗总计算和能量的相当大部分。仅优化推理是不够的,系统必须同时高效处理这两个阶段。
边缘 AI 计算谱系
基于MCU的边缘 AI 架构通常分为三类:
轻量化加速:紧密集成的加速器,专为小型、常开型工作负载设计。重点在于高效执行DSP与ML阶段的向量和矩阵运算。
中端NPU(Tiny-NPU):专用推理引擎,为较大模型提供更高吞吐量,但会引入额外的内存和调度复杂性。
高性能NPU:面向计算密集型工作负载,例如高分辨率视觉或多模型执行。这类架构需要大量的内存带宽和功耗。
这些类别通常以峰值TOPS或吞吐量进行比较。但在MCU级系统中,这种比较往往具有误导性,因为主导约束因素是能耗、内存和确定性,而不应是峰值计算能力。
边缘 AI 工作负载的实际需求
现实中的边缘AI部署遵循一致的模式。模型通常较小,大小仅为几十到几百KB,并在常开系统中持续或周期性运行。输入一般是低带宽数据流,例如音频信号或传感器读数,成功的关键在于延迟的可预测性,而不仅仅是降低平均延迟。常见应用包括关键词检测与音频分类、利用IMU数据的手势识别、时间序列信号中的异常检测,以及低分辨率的存在检测。
在这些环境中,主要约束并非峰值计算性能,而是整体系统效率。每次推理的能耗往往比原始吞吐量更重要,而内存占用和数据传输对性能的影响通常大于可用处理能力。确定性执行与一致的延迟也是关键要求。因此,优化的重点从最大化基准性能转向实现系统层面的高效与可靠运行。
这意味着优化目标从“最大性能”转向“系统级效率”。
芯科科技MVP:匹配AI工作负载的计算能力
Silicon Labs(芯科科技)的矩阵向量处理器(MVP)正是围绕这种工作负载特性而设计的。与其完全依赖M33内核,不如将计算工作卸载到MVP引擎来完成以下功能:
机器学习计算线性代数运算矩阵与向量运算(包括复数与实数,DSP)
许多用于ML推理的数学运算同样也会在信号处理过程中使用。MVP同时加速这两类运算,从而提升整体系统效率,而不仅仅是加快神经网络的执行速度。
架构层面的启示:系统效率来源何处
这种方法通过加速运算并与更广泛的系统架构紧密集成来带来优势。
1. 减少数据传输:在许多嵌入式系统中,数据在内存与计算单元之间的移动消耗的能量往往比计算本身更多。紧耦合的加速器并不能完全消除数据传输,但能让其更高效。集成的加载-存储与DMA机制允许数据以可预测的访问模式在内存与加速器之间流动,减少CPU干预,避免在不同计算子系统之间不必要的复制。相比之下,独立NPU往往需要额外的内存传输与同步开销,从而增加能耗与延迟。
2. 消除系统开销:独立NPU会引入调度、同步与上下文切换的开销。这些在基准测试中常被忽略,但在常开系统中却十分显著。通过将加速集成到MCU的执行流程中,MVP能最大限度减少这些开销。3. 更可预测的执行:实时系统需要受控的延迟。具有固定执行特性的轻量化加速器能够提供可预测的时序。而为吞吐量优化的 NPU 可能因内存争用、排队或批处理而引入延迟的波动。4. 统一的DSP与ML加速:由于MVP同时加速信号处理与机器学习基础运算,它避免了分别优化的需求。这在DSP阶段占据能耗主导的工作负载中尤为重要。
现实中的AI工作负载
音频与语音:关键词检测与声音分类系统在严格的功耗预算下持续运行。延迟必须低且一致,以实现实时响应。
运动与交互:手势识别系统依赖连续的传感器数据流与快速分类。这类系统受益于传感器处理与推理之间的紧密耦合。
工业监测:预测性维护应用处理时间序列数据以检测异常。它们需要确定性执行,并在受限能耗预算下保持长期可靠性。
低分辨率视觉:嵌入式视觉应用通常处理小尺寸图像,以保持在内存与计算限制范围内。效率比吞吐量更为关键。
连接型边缘AI:设备越来越多地结合本地推理与无线连接。需要高效计算来平衡AI工作负载与通信任务。许多这类AI工作负载并未充分利用高吞吐量NPU。它们往往更受益于与MCU内存系统和执行流程紧密耦合的低开销、节能型加速。
轻量化加速在边缘AI部署中的适配性
轻量化加速特别适合以下场景:
- 在严格功耗预算下运行的常开系统小到中型AI模型包含大量数字信号处理(DSP)组件的工作负载需要确定性时序的应用
这些特性与许多当前MCU边缘AI部署的需求高度契合,使轻量化加速成为大部分AI工作负载的有效方法。
超越计算:工具与生态系统
仅有高效硬件不足以确保边缘AI部署成功。开发者还需要简化整个流程的软件栈,从模型优化与部署到调试与长期维护。这包括量化与剪枝等技术的工作流、性能分析与调试工具、与固件及RTOS环境的集成,以及支持模型开发的数据收集与训练管线。
芯科科技提供了包括EFR32第二代无线SoC系列与SiWx917在内的硬件平台,以及面向开发者的软件工具、TensorFlow Lite Micro支持,并与Edge Impulse和SensiML等生态伙伴合作。探索AI/ML解决方案:https://cn.silabs.com/applications/artificial-intelligence-machine-learning
在边缘平衡计算、内存与能耗
在MCU级边缘AI中,峰值计算性能很少是决定性指标。成功的系统是那些能在严格约束下平衡计算、内存与能耗的系统。像MVP这样的轻量化加速架构与现实工作负载需求高度契合。通过减少数据传输、最小化系统开销并同时支持DSP与ML,它们能够实现高效且可预测的执行。
对于许多边缘 AI 应用而言,问题不在于如何最大化计算,而在于如何以最有效的方式使用“恰到好处”的计算能力。
150
