YOLO5目标检测方案-基于米尔RK3576开发板
本帖最后由 swiftman 于 2026-1-22 18:18 编辑本文基于米尔MYD-LR3576开发板,详细记录了如何利用500万像素USB摄像头实现640×640分辨率的YOLO5s目标检测,并将结果实时输出至1080P屏幕的全流程。通过系统级的软硬件协同优化,最终将端到端延迟控制在40ms以内,实现了 20FPS的稳定实时检测性能。文章重点剖析了摄像头特性分析、显示通路选择、RGA硬件加速、RKNN NPU集成等关键技术环节,为嵌入式AI视觉系统的开发与调优提供了一套完整的思路与实践方案。
https://srcc.myir.cn/images/20260122/a36b425edd424b4882869e58cdec0eef.jpg?v=223080
PART 01系统架构与性能目标1.1 硬件平台
[*]主控芯片:Rockchip RK3576(四核A72+四核A53,6TOPS NPU,RGA,GPU,VPU)
[*]摄像头:500万像素USB摄像头(支持MJPEG/YUYV格式)
[*]显示器:4K HDMI显示屏(通过Weston桌面环境显示)
[*]开发板:米尔MYD-LR3576
https://srcc.myir.cn/images/20260122/27f60d31be75ad7faac603bdc6ad0517.png?v=808877米尔基于RK3576核心板开发板
1.2 软件平台使用米尔官方V2.0.0 SDK提供的buildroot镜像,内核版本为6.1.118。系统信息如下:root@myd-lr3576-buildroot:/# uname -aLinux myd-lr3576-buildroot 6.1.118 #1 SMP Fri Sep 2602:34:15 UTC 2025 aarch64 GNU/Linux
1.3 性能目标
[*]实时性:完成从摄像头采集→NPU推理→屏幕显示的完整流程,耗时不超过摄像头一帧的时间。
[*]输入/输出:尽可能提高摄像头采集帧率,并在显示端支持更高的输出分辨率。
[*]功能:实现YOLO5s目标检测,并在视频画面中实时绘制检测框。
PART 02数据处理流程与优化实践摄像头数据需要经历哪些过程才能到显示端输出,参考下图
https://srcc.myir.cn/images/20260122/1460955e3d3d4462380d880d5dd69416.png?v=433437
2.1 CPU处理方案及其瓶颈
https://srcc.myir.cn/images/20260122/b7c83166a8ff7c666cf96494dc771033.png?v=594970
如果把摄像头数据直接显示到屏幕上,先了解清楚它们输入输出关系。
摄像头输出可以用v4l2-ctl -D -d /dev/videoxx --list-formats-ext
Display输出可用用cat /sys/kernel/debug/dri/0/state查看
https://srcc.myir.cn/images/20260122/03ad6dcca1dc55eb4bcde5b81f6dab3f.png?v=573147根据实时性来说,需要选择最高fps分辨率对应输出,这里选择640x480 20fps,那么它需要把YUYV格式替换成RGBA8888才能显示。
显示大小不超过屏幕最大分辨率3840x2160即可。
CPU处理是如下过程
https://srcc.myir.cn/images/20260122/4ce4e35ffdd6d77179c68c0d4b8240d0.png?v=499065若要将摄像头采集的YUYV格式数据直接显示到屏幕,需先转换为RGBA8888格式。在CPU上进行格式转换与缩放的性能如下(输入为640×480 YUYV):
https://srcc.myir.cn/images/20260122/67a24416dfc306cb204736299c02e030.png?v=274033
可见,CPU在处理1080P分辨率时已接近能力上限,更高分辨率则无法满足实时性要求。
2.2 引入RGA进行硬件加速
RGA作为RK3576 2D处理芯片模块,它的作用是对图片做旋转,缩放,旋转,镜像以及格式转换。
根据手册信息,它能处理数据的性能是物理地址>DMA>虚拟地址。
那么用RGA来替换CPU的格式转换和缩放。
https://srcc.myir.cn/images/20260122/dc813fc8529a4a84f5320eda77078cca.png?v=749332
RGA是一次进行转换和缩放,下面是对比CPU运算的对比图使用RGA替代CPU进行格式转换与缩放后,性能对比如下:
https://srcc.myir.cn/images/20260122/25451829033e597c321ffe2a158c16c6.png?v=991521
RGA的引入带来了数量级的性能提升,尤其是DMA模式,大幅降低了处理延迟。
2.3 GPU直接显示方案
调试阶段常使用OpenCV的imshow显示图像,但其依赖CPU参与,无法满足实时性要求。系统实际采用DRM显示框架与Weston桌面环境,因此我们选用Wayland-client方案进行直接显示,实现GPU直显。
https://srcc.myir.cn/images/20260122/ba25a9e7226df710385672d39ae278fa.png?v=212941
不同输入模式下的显示耗时对比:
https://srcc.myir.cn/images/20260122/e85d72ef4aa17a81f76ba1e9f4df5f30.png?v=512611
2.4 NPU推理流程与耗时分析
https://srcc.myir.cn/images/20260122/f17f36be7d2f7536618879d73cbb1185.png?v=902663
通用模型,通过rknn-toolkit2转换成rknn后就可以通过RKNN API来调用和推导。
使用rknn_model_zoo yolo5模型进行转换后生成模型,yolov5s-640-640.rknn和coco80labels_list.txt,以及一些调用参考代码。
它的输入必须是640x640RGB格式。
rknn推理虚拟地址关键步骤如下:
https://srcc.myir.cn/images/20260122/0ec6015dafe470a6a98634aaf5b3e517.png?v=175586
实际测试后rknn_run这个阶段大概耗时26~31ms之间rknnoutputsget获取数据后即可进行内部处理,检测出目标,坐标,信心指数,根据实际需求绘制在屏幕上,这一步可以多进程异步处理,不算在串行时间内,笔者测试大概会多花8ms左右。
https://srcc.myir.cn/images/20260122/d86826719833c9020ec5ee34da24dea1.png?v=549998
因此总计一下摄像头实时采集NPU推理到显示整个过程耗时情况
https://srcc.myir.cn/images/20260122/c3ea7852503d24df23687f844ec97b5b.png?v=254574
结论:NPU推理阶段(T2)仍是系统的主要耗时环节。但通过DMA+RGA+直接显示的优化组合,系统整体延迟大幅降低,且在高分辨率输出下仍能保持稳定的帧率。
2.5 多摄像头系统资源占用分析
[*]虚拟内存方案
1个摄像头
https://srcc.myir.cn/images/20260122/63f6487371e9a53922dc4fc905107c45.png?v=970421https://srcc.myir.cn/images/20260122/d0ff84056a58a41589bb84ca5cc40010.png?v=604856https://srcc.myir.cn/images/20260122/44bf878c70cfa11406950d332c2cb434.png?v=6728214个摄像头
https://srcc.myir.cn/images/20260122/a7f7d25809ff8c03a8f6d3cebf0e865f.png?v=231238https://srcc.myir.cn/images/20260122/996fb13befbbb135d10e3b4571c25ad5.png?v=183225
[*]Dma方案
1路摄像头输出
https://srcc.myir.cn/images/20260122/f1910186eb13aa89821b556da54f617d.png?v=8483342路摄像头输入
https://srcc.myir.cn/images/20260122/df2b8b8f4860f303294e81cdaa7fd1bf.png?v=497274
PART 03总结在嵌入式AI视觉系统中,NPU的算力是决定性能上限的关键因素。然而,要达到这一上限,必须构建高效的数据流水线。本文实践表明,通过RGA硬件加速、DMA零拷贝数据传输以及GPU直接显示的协同优化,能够彻底释放 RK3576平台的异构计算潜力,将端到端延迟控制在数十毫秒内,实现高清、实时的目标检测应用。这一优化思路同样适用于其他具备类似硬件加速单元的嵌入式AI平台。
页:
[1]