实战技巧,Mali GPU编程特性及二维浮点矩阵运算并行优化详解

2015-08-07 12:53:09 来源:互联网
标签:
OpenCL   SoC   Linux

 

基于Mali-T604嵌入式GPU的二维浮点矩阵运算并行优化
ARM Cortex-A15系列处理器是当前最新的嵌入式ARM SoC,该系列处理器首次集成了Mali-T600系列的移动端GPU,该系列GPU支持OpenGL以及OpenCL等计算框架,可以有效加速通用计算,而目前对其应用方法和实际优化效果的研究很少。本文基于以三星的Exynos5250处理器为核心的Arndale Board嵌入式开发平台,对集成于处理器上的Mali-T604嵌入式GPU的GPGPU(General-Purpose computation on GPU)技术进行研究并对不同运算规模的浮点矩阵乘法进行并行加速优化,提供实际测试结果。

GPGPU技术早年主要在超级计算机平台进行高性能计算,而近年该技术逐渐被引入嵌入式领域。但在过去的移动GPU平台上没有专门针对通用计算的软件框架和编程接口,软件设计者难以对于数据的同步和计算的并行进行控制,所以移动GPU在通用计算领域一直难以应用。本文基于Exynos5250 SoC平台详述Mali GPU的硬件特性和将其应用于通用计算的编程的方法,最后将二维浮点矩阵乘法并行化作为优化实例,验证Mali GPU的并行能力,为计划使用嵌入式GPU的GPGPU技术进行优化工作的研究人员和应用开发者提供技术参考和借鉴。

1.Mali T604 GPU的硬件结构和编程特性
Mali是由ARM研发设计的移动显示芯片组(GPUs)系列,不仅能够在移动端提供强大的图像渲染能力,同时在近期对通用计算进行了良好的软硬件支支持。

1.1 Mali T604 GPU的组成结构
Mali-T604是Mali系列中首款使用统一渲染架构Midgard的移动GPU,Mali-T604 GPU包含4个着色器核心,采用AMBA 4 ACE-LITE总线接口,该总线以Cache Coherent Interconnect技术为特色,在多个处理器之间提供完全Cache一致性,通过ARM的一致性和互连技术,计算任务在异构系统中进行共享处理时,可以轻松跨越CPU、GPU和其他可用计算资源,更高效地访问数据。图1展示了Mali-T604 GPU的基本框架。如图2所示,Cortex-A15 CPU核心以及Mali GPU核心物理上共享了片外的RAM存储器并保持了L2Cache的一致性。



图1  Mali-T604基本硬件框图

图2 Exynos5250处理器框图


Mali-T604 GPU在硬件层面优化了对任务管理和事件依赖的处理,并将这部分功能完全集成在其硬件的任务管理单元之中,可将计算任务从CPU卸载到GPU,并在活动的着色器核心之间实现无缝负载平衡。

1.2 Mali GPU的并行化线程结构特征
Mali GPU进行通用计算的技术核心是以多核多线程的思想将密集的计算任务进行拆解,将大量的计算线程分配于众多计算核心中,GPU可以同时处理成百上千的线程,大量晶体管用于ALU.GPU适合做高密度数据的并行运算,只有在运算的并行粒度足够大的时候才能发挥出强大的并行运算能力。图3展示了CPU和Mali GPU之间工作调配的过程。



图3 Cortex-A15 CPU和Mali GPU之间的工作调配


Mali GPU中每个计算线程会占用着色器核心的一部分资源(存储器和ALU等),每个线程占用资源的多少影响了同时并行处理的活动线程的数量。对Mali GPU,每一个线程都有自己的程序计数器,这意味着Mali GPU和桌面GPU平台不同,程序分支的发散不是一个影响效率的重要的问题。每个Mali-T604 GPU的着色器核心最多可以同时容纳256个线程,Mali GPU在进行通用计算时需要大量的线程进行切换才能保证得到计算效率上的收益,对于Mali-T604而言,这个最少的总工作项数量是4096.如果分配于单个着色器核心上的线程数目不足128,很可能带来并行效率的下降,这时需要拆分工作为不同的步骤,简化每个步骤的线程复杂度,让单个着色器核心并行容纳的线程数量足够多以保证并行度。

 

 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

继续阅读
AMD新款锐龙嵌入式R1000壮大其嵌入式产品阵营并赢得新设计和客户青睐

AMD 锐龙嵌入式R1000 SoC为嵌入式行业带来全新性能标杆,每瓦性能较上代AMD R系列SoC 提升3倍。

苹果A13芯片代工厂有很大可能是台积电,会采用5nm制程吗?
苹果A13芯片代工厂有很大可能是台积电,会采用5nm制程吗?

北京时间4月9日早间消息,据美国科技博客9to5mac报道,台积电有望为苹果公司的2020年款iPhone生产5纳米A系列芯片。

瑞萨电子基于RZ/G Linux平台的安全解决方案将于2019年底上市

全球领先的半导体解决方案供应商瑞萨电子株式会社TSE:6723)今日宣布,将于2019年12月底推出基于RZ/G Linux平台、支持IEC62443-4-2国际安全标准认证的安全解决方案,保护工业控制系统免受网络攻击,并有效缩短用户所需的认证时间。

全球最远的三维空间实时手势识别是谁家的方案?有何特点?

近日,普林芯驰完成数千万元A轮融资,投资方为火山石资本。2018年,该公司曾获得清合投资、珠海高新投天使轮投资。

Nordic低功耗蓝牙nRF52832 SoC可让用户通过智能手机解锁智能门锁和监控门户

T86-NB智能锁使用Nordic的nRF52832 SoC器件,提供了安全的低功耗家居及办公室门禁解决方案

更多资讯
【技术分享】英特尔10纳米Agilex FPGA核心技术全解读

英特尔的10纳米FPGA终于来了。在四月刚刚结束的英特尔“以数据为中心创新日”中,曾经代号为Falcon Mesa的英特尔最新一代10纳米FPGA正式亮相,并正式命名为Agilex™。

【技术分享】使用EPROM或EEPROM配置FPGA大家都会,使用NOR闪存呢?

NOR闪存已作为FPGA(现场可编程门列阵)的配置器件被广泛部署。其为FPGA带来的低延迟和高数据吞吐量特性使得FPGA在工业、通信和汽车ADAS(高级驾驶辅助系统)等应用中得到广泛采用。汽车场景中摄像头系统的快速启动时间要求就是很好的一个例子——车辆启动后后视图像在仪表板显示屏上的显示速度是最为突出的设计挑战。

【技术分享】详解FPGA中的DDS技术

我知道,我对与电子有关的所有事情都很着迷,但不论从哪个角度看,今天的现场可编程门阵列(FPGA),都显得“鹤立鸡群”,真是非常棒的器件。如果在这个智能时代,在这个领域,想拥有一技之长的你还没有关注FPGA,那么世界将抛弃你,时代将抛弃你。

高云半导体研讨会圆满召开,累计出货已达1500万片

2019年4月12日,中国武汉,高云半导体FPGA技术研讨会系列活动于武汉凯悦酒店成功召开,现场气氛热烈,座无虚席。

高云半导体研讨会圆满召开,累计出货已达1500万

2019年4月12日,中国武汉,高云半导体FPGA技术研讨会系列活动于武汉凯悦酒店成功召开,现场气氛热烈,座无虚席。

Moore8直播课堂
开发板测评
技术讨论
电路方案

1970-01-01 08:00:00