为什么说搞嵌入式是个系统化的活

大家好，我是皮哥，关注我的话，你应该知道我们的显示技术实战训练营深受学员的好评！今天聊下显示领域很重要的一个概念dma_buf。想要更深入的话可以加入训练营！

在嵌入式系统和异构计算场景中，CPU、GPU、NPU 等硬件协同工作已成为常态。然而，随着 AI 推理、图像处理等应用的兴起，数据量急剧增加，传统的内存拷贝方式显得越来越低效。每一次在不同设备之间传递数据，都意味着大量的带宽消耗和延迟，严重影响系统性能。为了解决这个问题，Linux 内核引入了一个非常关键的机制——dma_buf。

dma_buf 的核心理念是“零拷贝共享”。它允许多个设备直接共享同一块物理内存，而不是通过反复的数据复制来完成交互。这种机制不仅降低了系统开销，还显著提升了处理速度。那么，它是如何做到的呢？答案在于 Linux 的文件描述符（fd）机制。dma_buf 将内存缓冲区抽象成一个可以跨进程、跨子系统传递的 fd，这意味着 GPU 或 NPU 可以直接导入这个 fd，而无需关心底层的内存布局，简单、安全又高效。

在整个架构中，dma_buf 分为“导出者”和“导入者”两个角色。导出者负责分配物理内存并创建 dma_buf，同时提供一系列操作回调，比如 map_dma_buf、begin_cpu_access、end_cpu_access 等。导入者则在拿到 fd 后，通过 API 将 dma_buf 附着到自己的设备上，映射 IO 地址，实现直接访问。这种角色分离让不同模块之间的耦合度非常低，扩展性也更强。

当然，多个设备共享同一块内存时，数据同步是必须解决的问题。dma_buf 提供了两种机制：一种是基于 dma_fence 的异步同步，用于确保 GPU 渲染完成后再交给 NPU 使用；另一种是 CPU 同步通知，当 CPU 访问 dma_buf 前后调用 begin_cpu_access 和 end_cpu_access，确保缓存刷写和数据一致性。

在实际使用中，流程大致如下：导出者通过打开 DMA-Heap 设备（如 /dev/dma_heap/system），使用 ioctl 分配缓冲区并获得 fd，然后可以通过 mmap 映射填充数据，再将 fd 传递给其他进程或驱动。导入者拿到 fd 后，调用 dma_buf_get() 获取结构体，再通过 dma_buf_attach() 和 dma_buf_map_attachment() 完成映射，最后在使用结束后清理资源。

这种机制在 AI 流水线中尤为重要。比如摄像头采集的图像数据通过 V4L2 子系统导出 dma_buf，NPU 直接读取进行推理，后续的中间特征图也通过 dma_buf 传递给 GPU 进一步处理，实现多阶段并行协作，极大提升性能。

总的来说，dma_buf 是 Linux 内核中用于不同硬件设备之间共享大容量内存缓冲区的基础设施，广泛应用于高性能图形和 AI 场景。它通过 fd 实现跨组件“零拷贝”共享，并配合 fence 和 CPU 同步确保数据一致性，是打造高效异构计算系统的核心技术。如果你正在开发底层驱动或优化 AI 系统，深入理解 dma_buf 的机制和使用流程，将为你的项目带来显著的性能提升。

为什么说搞嵌入式是个系统化的活

相关推荐