近日,Arm 在上海召开 2019 Arm 技术峰会。

 

现场图

 

在峰会现场,Arm 中国董事长兼首席执行官吴雄昂介绍道,Arm 是唯一的万亿级计算架构和生态系统,迄今为止 Arm 全球合作伙伴基于 Arm 技术的芯片累计出货量超过 1500 亿片,多达 530 个授权客户,1000+技术合作伙伴

 

 

同时,对于中国市场,吴雄昂表示,Arm 作为服务中国科技产业的领先生态系统,目前 Arm 在中国有超过 200 个合作伙伴,中国客户基于 Arm 技术的芯片累计出货量超过 160 亿颗,95%的国产芯片都是基于 Arm 架构。此外,Arm 作为非美国计算平台,经过法务调查,无论 v8 还是 v9 架构均源自英国的技术,Arm 会和过去一样持续向中国企业进行授权和服务支持。

 

当前,随着自动驾驶、机器学习、数据处理、IoT 以及 AI 芯片等领域的发展,Arm 瞄准市场需求,大举进攻未来市场。面对全球第五次算力革新,Arm 通过创新的芯片设计架构为开发者提供全面的开发工具和解决方案套件。

 

Arm 发布新品

 

作为本次峰会的亮点,Arm 推出了多款处理器新品,包括两款全新 NPU 处理器 Ethos-N57 和 Ethos-N37,以及 Mali-G57 GPU 和 Mali-D37 DPU

 

NPU:Ethos-N57、Ethos-N37

随着 AI 技术的发展和广泛应用,AI 对于芯片算力提出了更高的要求。Arm 作为全球最大的处理器 IP 供应商,其 CPU 和 GPU 已在移动终端市场占据了极大的市场份额,在 AI 计算领域,Arm 一直依托于其 Cortex CPU、Mali GPU 及相关软件开发工具来提升其 AI 计算的能力。但是传统的 CPU 和 GPU 核心并非 AI 计算的最佳载体。

 

因此,AI 催生出越来越多的芯片厂商,专注于 AI 专用芯片的研发或在 SoC 当中集成 NPU 内核,已提升机器学习或 AI 能力。比如地平线、云知声、出门问问、比特大陆等公司均推出了 AI 专用芯片;华为、苹果、高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在 SoC 当中集成自己的 NPU 内核。

 

面对这一趋势,以及市场对于 AI 内核的需求,Arm 在去年年初也公布了针对 AI 的 Project Trillium 项目,其中就包括了全新的机器学习处理器 IP、目标检测处理器 IP 和神经网络软件库。

 

Arm 指出,Project Trillium 项目的成果正在陆续产品化。其中,Ethos-N77 是 Arm 去年公布的 Project Trillium 项目中的机器学习处理器 IP,Arm 介绍,Ethos-N77 内部集成了可配置的 1-4MB 的 SRAM,在 1GHz 主频下,7nm 工艺下,可以提供最高 4 TOPS 的 AI 算力,每瓦性能高达 5 TOP,其中,Ethos-N77 的单位面积算力为 4.6 TOPs/mm²。

 

此外,从其他厂商的公开数据对比来看,Ethos-N77 的 AI 性能与苹果 A12 和麒麟 980 的 NPU 相当,在单位面积算力方面,远高于苹果 A12 和麒麟 970 的 NPU。在每瓦算力方面,也是远高于苹果 A12 的 NPU,略低于麒麟 810。综合来看,Arm Ethos-N77 达到了目前旗舰级 NPU 的水准。

 

本次峰会,Arm 又带来了 NPU 新品 Ethos-N57、Ethos-N37。

 

Ethos-N57、Ethos-N37 NPU 是继 Ethos-N77 发布之后推出的两款面向中低端市场的 NPU。

 

 

针对中端主流市场的 Ethos-N57,内置了 512KB SRAM,在 1GHz 主频下,算力最高可达 2TOPS;而针对低端市场的 Ethos-N37,是为了提供面积最小的 ML 推论处理器(小于 1mm²)而设计,其同样也内置了 512KB SRAM,在 1GHz 主频下,算力可达 1TOPS。

 

现场图

 

Arm Ethos 的 NPU 组合对 AI 与机器学习作出复杂的运算,以满足用户在日常生活对设备的需求。算上先前发布的 Ethos-N77,三款 NPU 涵盖高中低端市场:N77 应用于高端市场,用于 VR/AR、旗舰手机等复杂运算;Ethos-N57、Ethos-N37 两款新 NPU 的设计理念进行了一些改进,如针对 Int8 和 Int16 数据类型的支持性优化、先进的数据管理技术以减少数据的移动与相关的耗电、通过 Winograd 等创新技术的落地使性能比其他 NPU 提升超过 200%。并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。

 

除了移动市场之外,Arm 市场营销副总裁 Ian Smythe 强调,Arm 的 Ethos 系列 IP 未来也将会开始进入物联网、工业、汽车、网络以及服务器等多市场领域。

 

Dennis Laudick,Arm ML 事业群商业与营销副总裁(左)、Arm 市场营销副总裁 Ian Smythe(右)

 

上面提到,随着不同行业的 AI 应用、不同设备对 AI 算力需求的不同,原有的 CPU、GPU 通用架构芯片难以满足所有产品的需求。随着 AI 的发展趋势,AI 芯片正在向专用化方向发展,此外,众多手机芯片厂商开始推出自研 NPU 内核,Arm 如何平衡 AI 芯片的通用性和专用性问题?Arm 推出的 NPU IP 存在哪些优势?

 

Ian Smythe 认为,目前 AI 处理器还处于发展初级阶段,很多 AI 算法处于迭代过程中,通用型 AI 芯片仍是机器学习的需求所在。同时,Arm 的 Ethos NPU IP 并不是孤立存在的,其主要的优势在于本身提供出色的 AI 性能的同时,可以更好与 Arm 的 CPU、GPU 进行协同,以实现异构的 AI 计算,从而进一步提升整个系统层级的 AI 性能、降低功耗。

 

对于后续 Arm 在 NPU 方面的布局和规划,Arm ML 事业群商业与营销副总裁 Dennis Laudick 指出,这三款 NPU 产品是组成一个类似的架构,未来我们会在这个领域继续开发相关的产品,开发全系的 NPU 产品,目标是能够让机器学习应用到任何市场以及任何产品之上。


GPU:Mali-G57 

通过了解可以发现 ARM 此前曾发布多款移动 GPU,Mali-G77 GPU 和 Mali-G52 GPU 分别主打高、低两端市场。此次发布的 Mali-G57 GPU 面向中端主流市场,是首款采用 Valhall 架构的中端 GPU,这种新架构也为 Mali-G77 旗舰 GPU 所采用。

 

ARM 表示,Mali-G57 面向高性能计算需求和复杂机器学习能力,将更好的沉浸式体验带到消费级,针对 VR 提供注视点渲染支持,能灵活运行于不同的机器学习工作负载,能更好应用于更复杂的 XR 实境应用。与 Mali-G52 GPU 相比有较大提升,能效提升 30%、性能密度提升 30%、机器学习提升 60%。

 

DPU:Mali-D37

本次峰会,Arm 还推出了目前单位面积效率最高的显示处理器 Mali-D37。

 

Mali-D37 DPU 是一个在最小的可能面积上包含丰富显示与性能的新型显示处理器,采用经过优化的 Komeda 架构,专为主流和入门级设备设计。Mali-D37 拥有极高的单位面积效率,在支持全高清(Full HD)与 2K 分辨率的组态下,16nm 制程的面积将小于 1mm²。

 

在性能方面,Mali-D37 保留了高阶的 Mali-D71 关键的显示功能,包括与 Assertive Display 5 结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。另外,Mali-D37 其通过将部分 GPU 核心显示的工作负载卸载到 Mali-D37 来工作,以减少 GPU 的工作以及对于内存的访问,使得系统的功耗可以降低 30%。

 

Arm 表示,Mali-D37 可以支持入门级智能手机、平板电脑等成本较低的设备,获得 2K 级别的视觉效果与性能支持。
 

机器学习软件:Arm NN

除了研发一系列 IP 外,Arm 也非常关注软件和生态系统。去年 Arm 推出机器学习软件 Arm NN,Arm NN 是 Arm 贡献的一个开源标准,可以与 Caffe 等现有机器学习框架桥接,使得开发者仍可使用首选框架和支持工具,经 Arm NN 无缝转换结果后可在底层平台上运行。

 

目前的 Android 应用生态基本都是基于 Arm 架构的处理器,Arm Ethos 处理器系列与 Arm NN 一起使用时,应用开发者将可以更简单、高效的调用 Arm 的 CPU/GPU/NPU 内核,可以为用户带来更为出色的 AI 体验。

 

Ian Smythe 强调,软件的生态系统是 Arm 非常重要的一个基石所在,正是基于如此完善的软件生态系统,我们才能够在数十年里拥有这么多的合作伙伴,有这么紧密的合作,并且围绕着软件生态系统开发不同的解决方案,去满足市场上的需求。

 

结语

可以看到,面对 5G、物联网、AI 等巨大市场和发展机遇,Arm 面对多个细分市场,助推产品系列设计,积极拓展中国业务、推动合作发展。Arm 将致力于满足各种设备或应用市场的 AI 和算力需求,构建中国生态,推进全球生态。