意法半导体首次将NPU部署到汽车MCU

近日，意法半导体（ST）发布了首款集成AI加速器的汽车微控制器（MCU）——Stellar P3E，目前已进入“样品交付”阶段，预计2026年下半年启动规模量产。

图 | 基于Stellar P3E搭建的多合一电驱域控制解决方案；来源：意法半导体

这颗芯片引起我注意的，不是“首款集成AI加速器”这个标签，而是它在汽车MCU架构上做了几个实质性的取舍。

为什么把NPU塞进MCU，而不是继续用SoC？

汽车电子电气架构正在分化成两条路径：一条是以智能座舱/自动驾驶为代表的大算力SoC路线，另一条是以车身控制/动力总成为代表的实时控制路线。

Stellar P3E显然属于后者。它的Arm Cortex-R52+跑在500MHz，CoreMark超过8000分，在传统MCU范畴里已经顶到头了。但真正有意思的是它旁边那颗Neural-ART加速器。

图 | 在电动玻璃窗防夹功能中增加Neural-ART加速器的优势；来源：意法半导体

意法半导体通用和汽车微控制器事业部副总裁兼总经理Luca Rodeschini表示，这颗NPU不是拿来跑视觉模型的。

它的数据流架构专门优化了卷积、池化、激活这几类算子，与Cortex-R52+跑AI模型的差距是多少？官方给的数据是最高60倍及以上推理加速。但这个数字需要拆开看：它不是端到端应用性能提升60倍，而是特定神经网络层在NPU上相比CPU的加速比。换言之，在真实应用场景下，当CPU跑一个中等规模的时序分类模型需要2-3毫秒时，NPU可以压到50微秒以内。

这毫秒级的差距，决定了AI能否真正进入电机控制环路。

传统方案中，AI推理往往是开环的：传感器数据采集→上传到域控→推理→下发指令。这个回路的延迟在10毫秒级别，只能做诊断类应用。P3E的NPU放在ADC旁边，推理结果可以直接喂给PWM生成器，延迟压缩到微秒级，闭环控制才成立。

为什么是PCM，不是闪存？

Stellar P3E最高配置19.5MB非易失存储，用的是相变存储器（PCM），不是闪存。

图 | Stellar P3E的存储策略（PCM+RAM）；来源：意法半导体

为什么要用PCM？Luca Rodeschini分享了两个原因。

第一是密度。28纳米节点下，嵌入式闪存的单元尺寸已经很难微缩。PCM的存储密度是闪存的两倍左右，19.5MB这个容量在传统车规MCU里没见过——不是技术上做不到，而是芯片面积会大到失去商业可行性。

第二是OTA友好。PCM的位可写特性让它不需要像闪存那样按块擦除，FOTA升级时的软件复杂度会降低。对于需要支持10年以上车型周期的OEM来说，这个差异在长期维护成本上会体现出来。

值得一提的是，P3E的存储架构并非全盘PCM，而是混合搭配。代码执行和频繁读写的数据放在SRAM，静态存储和OTA镜像放在PCM。

功能安全为何选择可重构的锁步？

多合一集成的核心矛盾是：不同功能模块的安全等级要求不同。电机控制需要ASIL-D，车身控制可能ASIL-B就够。

传统方案是分芯片跑，或者上虚拟化。Stellar P3E给的方案是分核-锁步可重构。

图 | Stellar P3E的方案是分核-锁步可重构；来源：意法半导体

两个Cortex-R52+核心跑在锁步模式，实现ASIL-D；另外两个Cortex-R52+可以拆分成两个独立核心，一个跑ASIL-D任务，另一个跑ASIL-B任务，峰值性能翻倍。

这个设计的价值在于颗粒度。开发者可以在初始化阶段配置核心模式，甚至可以动态切换。对于OEM的域控制器设计来说，这意味着同一颗芯片可以覆盖不同安全等级的需求组合，不需要为低安全等级任务额外配一颗廉价MCU。

配合硬件内存保护单元和MPU隔离，不同ASIL等级的任务可以在同一颗芯片上共存且互不干扰。这不是新概念，但在28纳米工艺节点、500MHz主频、单芯片集成模拟外设的前提下做到这个水平，需要的是模拟IP和数字逻辑的协同优化。

低功耗策略，不是全系统休眠

始终在线AI功能在消费电子是标配，但在汽车上长期被卡在两个痛点：

第一，唤醒域控做推理，功耗账算不过来。第二，让MCU持续跑AI模型，CPU占用率高，影响实时任务。

Stellar P3E的解法是NPU独立于CPU运行。

当车辆休眠时，CPU可以完全断电，但NPU和必要的传感接口保持供电。NPU从ADC或数字接口获取数据，执行预训练的小模型，只有在检测到特定事件时才唤醒CPU或域控。

这个模式的功耗数据官方没有披露，但从架构推断：NPU运行功耗在数十毫瓦级，配合低功耗ADC和局部时钟，整机待机功耗可以压到百毫瓦以下。对于需要支持数周停放的电动车来说，这是电池管理系统持续监测电芯状态、或者充电口盖智能检测的可行方案。

28纳米的供应链现实主义

最后说节点选择。

28纳米不是先进制程，但它是成熟制程中性价比拐点。向下看40纳米，同等计算性能下芯片面积大、功耗高；向上看16纳米，流片成本、IP成本、产能保障都是问题。

意法半导体的策略是：28纳米自有产能+PCM自有技术=供应链可控。

Luca Rodeschini的原话表述是：“我们可以充分利用自有的产能来服务于工业自动化和汽车市场。”2023-2024年的车规芯片缺货本质上是代工产能错配。先进制程产能被消费电子、HPC、AI加速卡吃掉，车规MCU的需求波动无法快速传导到代工厂的产能分配。自建产能+成熟节点，可以规避这个风险。

这个选择在技术指标上没有惊喜，但在供应链层面是实质性的差异。