Supplyframe Supplyframe XQ Datasheet5

芯耀 Findchips bom2buy Siemens Xcelerator

关注我们

技术群
地域群
活动群

存储/储能技术资源交流群
加入
电子技术交流群
加入
AI人工智能交流群
加入
物联网技术交流群
加入
机器人技术交流群
加入
电源技术交流群
加入

广深工程师技术资源交流群
加入
上海区域工程师技术资源交流群
加入
北京区域工程师技术资源交流群
加入

直播活动群
加入
板卡试用群
加入

设计助手

电子硬件助手

电子硬件助手

元器件查询

元器件查询

看过来，RK3576开发板NPU方案你用对了吗？

01/22 14:37 作者：米尔电子

1228

加入交流群

扫码加入
获取工程师必备礼包
参与热点资讯讨论

摘要

本文基于米尔 MYD-LR3576 开发板，详细记录了如何利用 500 万像素 USB 摄像头实现 640×640 分辨率的 YOLO5s 目标检测，并将结果实时输出至 1080P 屏幕的全流程。通过系统级的软硬件协同优化，最终将端到端延迟控制在 40ms 以内，实现了 20FPS 的稳定实时检测性能。文章重点剖析了摄像头特性分析、显示通路选择、RGA 硬件加速、RKNN NPU 集成等关键技术环节，为嵌入式 AI 视觉系统的开发与调优提供了一套完整的思路与实践方案。

图：米尔基于RK3576核心板开发板

一、系统架构与性能目标

1.1 硬件平台

主控芯片：Rockchip RK3576（四核A72+四核A53，6TOPS NPU，RGA,GPU,VPU）
摄像头：500万像素USB摄像头（支持MJPEG/YUYV格式）
显示器：4K HDMI显示屏（通过Weston桌面环境显示）
开发板：米尔MYD-LR3576

1.2 软件平台

使用米尔官方 V2.0.0 SDK 提供的 buildroot 镜像，内核版本为 6.1.118。

系统信息如下：

root@myd-lr3576-buildroot:/# uname -a

Linux myd-lr3576-buildroot 6.1.118 #1 SMP Fri Sep 26 02:34:15 UTC 2025 aarch64 GNU/Linux

1.3 性能目标

实时性：完成从摄像头采集 → NPU推理 → 屏幕显示的完整流程，耗时不超过摄像头一帧的时间。
输入/输出：尽可能提高摄像头采集帧率，并在显示端支持更高的输出分辨率。
功能：实现 YOLO5s 目标检测，并在视频画面中实时绘制检测框。

二、数据处理流程与优化实践

摄像头数据需要经历哪些过程才能到显示端输出，参考下图

2.1 CPU 处理方案及其瓶颈

如果把摄像头数据直接显示到屏幕上，先了解清楚它们输入输出关系。

摄像头输出可以用v4l2-ctl -D -d /dev/videoxx --list-formats-ext

Display输出可用用cat /sys/kernel/debug/dri/0/state查看

根据实时性来说，需要选择最高fps分辨率对应输出，这里选择640x480 20fps，那么它需要把YUYV格式替换成RGBA8888才能显示。

显示大小不超过屏幕最大分辨率3840x2160即可。

CPU处理是如下过程

若要将摄像头采集的 YUYV 格式数据直接显示到屏幕，需先转换为 RGBA8888 格式。在 CPU 上进行格式转换与缩放的性能如下（输入为 640×480 YUYV）：

可见，CPU 在处理 1080P 分辨率时已接近能力上限，更高分辨率则无法满足实时性要求。

2.2 引入 RGA 进行硬件加速

RGA作为RK3576 2D处理芯片模块，它的作用是对图片做旋转，缩放，旋转，镜像以及格式转换。

根据手册信息，它能处理数据的性能是物理地址 > dma > 虚拟地址。那么用RGA来替换CPU的格式转换和缩放。

RGA是一次进行转换和缩放，下面是对比CPU运算的对比图

使用 RGA 替代 CPU 进行格式转换与缩放后，性能对比如下：

RGA 的引入带来了数量级的性能提升，尤其是 DMA 模式，大幅降低了处理延迟。

2.3 GPU 直接显示方案

调试阶段常使用 OpenCV 的 imshow 显示图像，但其依赖 CPU 参与，无法满足实时性要求。系统实际采用 DRM 显示框架与 Weston 桌面环境，因此我们选用 Wayland-client 方案进行直接显示，实现 GPU 直显。

不同输入模式下的显示耗时对比：

2.4 NPU 推理流程与耗时分析

通用模型，通过rknn-toolkit2转换成rknn后就可以通过RKNN API来调用和推导。

这里我们直接采用同事提供的rknn模型，yolov5s-640-640.rknn和coco_80_labels_list.txt，以及一些调用参考代码。

它的输入必须是640x640RGB格式

rknn推理虚拟地址关键步骤如下

实际测试后rknn_run 这个阶段大概耗时 26~31ms之间

rknn_outputs_get 获取数据后即可进行内部处理，检测出目标，坐标，信心指数，根据实际需求绘制在屏幕上，这一步可以多进程异步处理，不算在串行时间内，笔者测试大概会多花8ms左右。

因此总计一下摄像头实时采集NPU推理到显示整个过程耗时情况

结论：NPU 推理阶段（T2）仍是系统的主要耗时环节。但通过 DMA + RGA + 直接显示的优化组合，系统整体延迟大幅降低，且在高分辨率输出下仍能保持稳定的帧率。

2.5 多摄像头系统资源占用分析

虚拟内存方案

1个摄像头

4个摄像头

Dma方案

1路摄像头输出

2路摄像头输入

三、总结

在嵌入式 AI 视觉系统中，NPU 的算力是决定性能上限的关键因素。然而，要达到这一上限，必须构建高效的数据流水线。本文实践表明，通过 RGA 硬件加速、DMA 零拷贝数据传输以及 GPU 直接显示的协同优化，能够彻底释放 RK3576 平台的异构计算潜力，将端到端延迟控制在数十毫秒内，实现高清、实时的目标检测应用。这一优化思路同样适用于其他具备类似硬件加速单元的嵌入式 AI 平台。

版权声明：与非网经原作者授权转载，版权属于原作者。文章观点仅代表作者本人，不代表与非网立场。文章及其配图仅供工程师学习之用，如有侵权或者其他问题，请联系本站作侵删。侵权投诉

人工客服
（售后/吐槽/合作/交友）

米尔科技

米尔电子，是一家专注于嵌入式处理器模组设计、研发、生产和销售于一体的国家级高新技术企业，也被评为专精特新企业。米尔电子深耕嵌入式领域10多年，致力于为企业级客户提供基于ARM、FPGA、RISC-V和AI等各种架构，稳定可靠的处理器模组，满足客户大批量产品应用部署的需求，同时为客户提供产品定制设计、行业应用解决方案和OEM的一站式服务。

米尔电子，是一家专注于嵌入式处理器模组设计、研发、生产和销售于一体的国家级高新技术企业，也被评为专精特新企业。米尔电子深耕嵌入式领域10多年，致力于为企业级客户提供基于ARM、FPGA、RISC-V和AI等各种架构，稳定可靠的处理器模组，满足客户大批量产品应用部署的需求，同时为客户提供产品定制设计、行业应用解决方案和OEM的一站式服务。收起

相关推荐

NXP i.MX8M Plus 系列核心板及开发板-米尔电子高端NPU芯片
方案米尔电子
1488
2023/11/09
糕点自动售货机设计VHDL代码ISE basys2开发板
方案 FPGA代码设计学习资料
823
02/13 15:53
2025年电赛E题简易自行瞄准装置（基础发挥全完成）
方案嵌入式基地
1011
02/12 14:47
手把手教你做一款HID键盘
方案嵌入式基地
7725
02/11 16:31
【代码库】LPC55S69 多人脸检测
方案恩智浦
1287
02/11 15:49
【代码库】在 KW4x 低功耗蓝牙应用中集成 NFC 读取器库
方案恩智浦
1180
02/09 21:12
【代码库】使用 MCXA153 的 PMSM 无传感器 FOC
方案恩智浦
1039
02/09 21:10

登录即可解锁

海量技术文章
设计资源下载
产业链客户资源
写文章/发需求

创作中心去发布

米尔电子，是一家专注于嵌入式处理器模组设计、研发、生产和销售于一体的国家级高新技术企业，也被评为专精特新企业。米尔电子深耕嵌入式领域10多年，致力于为企业级客户提供基于ARM、FPGA、RISC-V和AI等各种架构，稳定可靠的处理器模组，满足客户大批量产品应用部署的需求，同时为客户提供产品定制设计、行业应用解决方案和OEM的一站式服务。米尔英文简称“MYIR”，是“Make Your Idea Real”第一个大写字母的缩写。我们的理念是“专业服务助力客户成功”，目前米尔已通过专业高效的服务，帮助全球数万家企业的产品成功上市。

TA的热门作品