边缘AI在智能摄像头里的实际表现：延迟、精度、功耗实测

最近在库拉KULAAI（k.kulaai.cn）上查边缘AI相关的推理框架和芯片方案时，顺手整理了一批智能摄像头端侧推理的实测数据。市面上关于"边缘AI赋能智能摄像头"的宣传很多，但真正拿设备跑一遍、把延迟和功耗摊开来聊的很少。这篇就拿几款主流方案做了个简单横评，数据说话。

测什么、怎么测

测的是智能摄像头最基础的AI任务：目标检测。用的模型是YOLOv5n和YOLOv8n，都是轻量级检测模型，适合端侧部署。输入统一用640×640分辨率，视频流模拟30fps输入，测模型实际推理帧率。

硬件选了三个档位：

- 低端：全志V831，内置0.2TOPS NPU

- 中端：瑞芯微RV1126，内置2TOPS NPU

- 中高端：瑞芯微RK3588S，内置6TOPS NPU

三块芯片在市面上的智能摄像头方案里覆盖了大部分出货量，选它们比较有代表性。

推理延迟：差距比想象的大

先说结论：算力差距直接决定了推理延迟，这个没什么悬念，但具体数字还是值得看一眼。

全志V831跑YOLOv5n，单帧推理耗时约180ms。换算一下大概5到6fps，作为安防摄像头勉强够用，但做不了实时性要求高的场景，比如人形跟踪或者车辆识别的连续帧处理。

RV1126跑同样的模型，单帧推理降到约35ms，接近30fps。这已经是流畅视频流的水平了，大部分安防场景够用。需要注意的是这是纯推理时间，加上前后处理（图像解码、缩放、NMS后处理），实际帧率会掉到22到25fps左右。

RK3588S明显拉开了档次。YOLOv8n单帧推理约12ms，加上前后处理总耗时约18ms，稳定在50fps以上。这个性能已经超出摄像头视频流的需求了，多余出来的算力可以同时跑第二个模型，比如人脸检测或者车牌识别。

一个值得注意的点：RV1126和RK3588S的NPU算力差了三倍，但实际推理速度差了不到三倍。原因是推理速度不只看NPU算力，还受内存带宽、模型调度效率、编译器优化程度影响。RV1126的NPU SDK成熟度比RK3588S差一些，模型编译后实际利用率有差距。

检测精度：量化是个绕不过去的坎

端侧部署必须做量化，不然模型体积和推理速度都扛不住。但量化一定会掉精度，问题是掉多少。

我拿COCO数据集的mAP@0.5做了对比：

- YOLOv5n FP32基准：mAP 45.7%

- YOLOv5n INT8量化后：mAP 42.1%

- YOLOv8n FP32基准：mAP 47.2%

- YOLOv8n INT8量化后：mAP 43.8%

掉3到4个点的mAP，在大部分安防场景里是可以接受的。白天室外环境下几乎感知不到差异，夜间低光照条件下会明显一些，小目标（比如远处的人影）漏检率会上升。

实际体验下来，RV1126和RK3588S的NPU对INT8的支持都不错，量化后的精度损失在预期内。但全志V831有个问题：它的NPU对某些算子不支持，模型编译时会自动把不支持的算子回退到CPU执行。混合推理导致延迟飙升，而且精度损失比纯INT8更大。选芯片之前一定要确认目标模型的算子覆盖度，不能只看TOPS数字。

功耗：算力和功耗的账不好算

功耗是端侧设备的核心指标，尤其是摄像头这种需要7×24小时运行的设备。

实测功耗（整机，含摄像头模组和DDR）：

|---|---|---|---|

| V831 | 0.6W | 1.1W | +0.5W |

| RV1126 | 1.2W | 2.8W | +1.6W |

| RK3588S | 1.8W | 4.5W | +2.7W |

单纯看推理功耗增量，V831最低，但它的算力也最低。折算成每TOPS功耗，三者差距其实不大，都在0.4到0.8W/TOPS这个区间。

但实际项目里不能只看这个数字。如果用V831因为算力不够导致需要更长的曝光时间或者更频繁的重试检测，整机功耗反而可能更高。功耗和算力的账，得放到具体场景里算。

还有一个容易忽略的点：DDR带宽。高分辨率视频流对内存带宽的需求很大，DDR频率拉高之后功耗会明显上升。有些方案为了压功耗把DDR频率降下来，结果推理延迟变长了。这个取舍需要根据实际帧率需求来平衡。

选型建议：不是算力越高越好

三款芯片测下来，各自的定位其实很清楚。

V831适合对成本极度敏感、AI功能只是锦上添花的场景。比如低功耗电池摄像头做个简单的移动侦测，不需要高帧率和高精度，0.5W的推理功耗增量很有吸引力。

RV1126是目前性价比最均衡的选择。2TOPS算力够跑主流检测模型，30fps不是问题，功耗控制也合理。大部分中端安防摄像头的AI方案用的就是这颗芯片。

RK3588S适合需要多路视频流或多模型并行的场景。单路摄像头有点性能过剩，但如果一台NVR要同时处理四路视频流的AI检测，6TOPS算力就刚好够用。

从工程角度看几个坑

SDK成熟度比芯片本身更重要。我用RV1126的时候，RKNN Toolkit的模型转换流程比较顺畅，大部分常见算子都支持。但V831那边，模型转换经常报错，不支持的算子需要手动替换，调试周期长了一倍。

摄像头模组的选型也会影响AI效果。同样一颗芯片，配一个低质量镜头，夜间成像一团糊，AI检测精度再高也没用。模组和AI是绑在一起的，不能分开考虑。

散热容易被忽视。RV1126和RK3588S长时间推理后芯片温度会上升，不加散热片的话，NPU会触发降频保护，推理延迟突然变长。如果是封闭外壳的摄像头，散热设计必须提前考虑。

最后说一句

边缘AI在智能摄像头里的落地已经过了概念验证阶段，现在的核心问题是工程化——怎么在成本、功耗、精度之间找到最优解。芯片选型只是第一步，SDK调优、模型适配、系统集成每一步都有坑。

别被TOPS数字迷惑。一块2TOPS的芯片用得好，可能比一块6TOPS的芯片用得烂强得多。