• 正文
  • 相关推荐
申请入驻 产业图谱

边缘AI在智能摄像头里的实际表现:延迟、精度、功耗实测

04/10 11:24
690
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

最近在库拉KULAAI(k.kulaai.cn)上查边缘AI相关的推理框架和芯片方案时,顺手整理了一批智能摄像头端侧推理的实测数据。市面上关于"边缘AI赋能智能摄像头"的宣传很多,但真正拿设备跑一遍、把延迟和功耗摊开来聊的很少。这篇就拿几款主流方案做了个简单横评,数据说话。

测什么、怎么测

测的是智能摄像头最基础的AI任务:目标检测。用的模型是YOLOv5n和YOLOv8n,都是轻量级检测模型,适合端侧部署。输入统一用640×640分辨率,视频流模拟30fps输入,测模型实际推理帧率。

硬件选了三个档位:

- 低端:全志V831,内置0.2TOPS NPU

- 中端:瑞芯微RV1126,内置2TOPS NPU

- 中高端:瑞芯微RK3588S,内置6TOPS NPU

三块芯片在市面上的智能摄像头方案里覆盖了大部分出货量,选它们比较有代表性。

推理延迟:差距比想象的大

先说结论:算力差距直接决定了推理延迟,这个没什么悬念,但具体数字还是值得看一眼。

全志V831跑YOLOv5n,单帧推理耗时约180ms。换算一下大概5到6fps,作为安防摄像头勉强够用,但做不了实时性要求高的场景,比如人形跟踪或者车辆识别的连续帧处理。

RV1126跑同样的模型,单帧推理降到约35ms,接近30fps。这已经是流畅视频流的水平了,大部分安防场景够用。需要注意的是这是纯推理时间,加上前后处理(图像解码、缩放、NMS后处理),实际帧率会掉到22到25fps左右。

RK3588S明显拉开了档次。YOLOv8n单帧推理约12ms,加上前后处理总耗时约18ms,稳定在50fps以上。这个性能已经超出摄像头视频流的需求了,多余出来的算力可以同时跑第二个模型,比如人脸检测或者车牌识别。

一个值得注意的点:RV1126和RK3588S的NPU算力差了三倍,但实际推理速度差了不到三倍。原因是推理速度不只看NPU算力,还受内存带宽、模型调度效率、编译器优化程度影响。RV1126的NPU SDK成熟度比RK3588S差一些,模型编译后实际利用率有差距。

检测精度:量化是个绕不过去的坎

端侧部署必须做量化,不然模型体积和推理速度都扛不住。但量化一定会掉精度,问题是掉多少。

我拿COCO数据集的mAP@0.5做了对比:

- YOLOv5n FP32基准:mAP 45.7%

- YOLOv5n INT8量化后:mAP 42.1%

- YOLOv8n FP32基准:mAP 47.2%

- YOLOv8n INT8量化后:mAP 43.8%

掉3到4个点的mAP,在大部分安防场景里是可以接受的。白天室外环境下几乎感知不到差异,夜间低光照条件下会明显一些,小目标(比如远处的人影)漏检率会上升。

实际体验下来,RV1126和RK3588S的NPU对INT8的支持都不错,量化后的精度损失在预期内。但全志V831有个问题:它的NPU对某些算子不支持,模型编译时会自动把不支持的算子回退到CPU执行。混合推理导致延迟飙升,而且精度损失比纯INT8更大。选芯片之前一定要确认目标模型的算子覆盖度,不能只看TOPS数字。

功耗:算力和功耗的账不好算

功耗是端侧设备的核心指标,尤其是摄像头这种需要7×24小时运行的设备。

实测功耗(整机,含摄像头模组和DDR):

| 芯片 | 空闲功耗 | 推理时功耗 | 推理功耗增量 |

|---|---|---|---|

| V831 | 0.6W | 1.1W | +0.5W |

| RV1126 | 1.2W | 2.8W | +1.6W |

| RK3588S | 1.8W | 4.5W | +2.7W |

单纯看推理功耗增量,V831最低,但它的算力也最低。折算成每TOPS功耗,三者差距其实不大,都在0.4到0.8W/TOPS这个区间。

但实际项目里不能只看这个数字。如果用V831因为算力不够导致需要更长的曝光时间或者更频繁的重试检测,整机功耗反而可能更高。功耗和算力的账,得放到具体场景里算。

还有一个容易忽略的点:DDR带宽。高分辨率视频流对内存带宽的需求很大,DDR频率拉高之后功耗会明显上升。有些方案为了压功耗把DDR频率降下来,结果推理延迟变长了。这个取舍需要根据实际帧率需求来平衡。

选型建议:不是算力越高越好

三款芯片测下来,各自的定位其实很清楚。

V831适合对成本极度敏感、AI功能只是锦上添花的场景。比如低功耗电池摄像头做个简单的移动侦测,不需要高帧率和高精度,0.5W的推理功耗增量很有吸引力。

RV1126是目前性价比最均衡的选择。2TOPS算力够跑主流检测模型,30fps不是问题,功耗控制也合理。大部分中端安防摄像头的AI方案用的就是这颗芯片。

RK3588S适合需要多路视频流或多模型并行的场景。单路摄像头有点性能过剩,但如果一台NVR要同时处理四路视频流的AI检测,6TOPS算力就刚好够用。

从工程角度看几个坑

SDK成熟度比芯片本身更重要。我用RV1126的时候,RKNN Toolkit的模型转换流程比较顺畅,大部分常见算子都支持。但V831那边,模型转换经常报错,不支持的算子需要手动替换,调试周期长了一倍。

摄像头模组的选型也会影响AI效果。同样一颗芯片,配一个低质量镜头,夜间成像一团糊,AI检测精度再高也没用。模组和AI是绑在一起的,不能分开考虑。

热容易被忽视。RV1126和RK3588S长时间推理后芯片温度会上升,不加散热片的话,NPU会触发降频保护,推理延迟突然变长。如果是封闭外壳的摄像头,散热设计必须提前考虑。

最后说一句

边缘AI在智能摄像头里的落地已经过了概念验证阶段,现在的核心问题是工程化——怎么在成本、功耗、精度之间找到最优解。芯片选型只是第一步,SDK调优、模型适配、系统集成每一步都有坑。

别被TOPS数字迷惑。一块2TOPS的芯片用得好,可能比一块6TOPS的芯片用得烂强得多。

相关推荐