距离 Arm 在 2011 年推出Armv8 架构,已经过去了十年。这十年间,Armv8 成为史上最成功的 IP 平台,现已成为全球智能手机芯片的基础,在手机芯片领域市场份额超过 90% 。

 

不过,除移动设备外,Arm一直在寻求新的突破口。去年有两大标志性事件堪称Arm架构的里程碑:一是苹果舍弃Intel处理器,在Mac 电脑系列采用的自研芯片 M1 推出,所采用的正是 Armv8 指令集架构。二是在超算届,全球 Top 500 超算系统榜单中,由日本理研以富士通 A64FX 处理器打造的新世代超级电脑"富岳"夺得榜首,正是基于Arm架构。

 

这都显示了Arm的雄心,及其凭借多年发展迭代所能到达的高度。

 

不过,下一个十年,将会是一个前所未有的新时代。最大的改变在于:一是过去几十年里,一直推动着芯片制程和性能的稳步提升的摩尔定律已经失速,尽管CMOS的微缩至少在十年内还是会继续进行下去,但技术挑战无疑越来越大,需要投入的资源也会越来越高;此外,大数据和人工智能时代的到来,新的计算需求不断衍生,当我们展望下一个十年或更长远的未来,人工智能应用将更加广泛和深入,在云边端全面落地。

 

基于此,传统的算力基础面临着巨大的升级需求。对于为芯片设计提供核心IP的Arm来说,要掌握通往下一个十年的金钥匙,唯有从核心的指令集架构实现根本变革。只有这样,才能实现它上至超级计算机、数据中心,下至移动终端和智能IoT设备的宏大愿景,真正成为未来智能社会的基石。

 

Armv9应对未来挑战而生

 

日前,Arm宣布推出Armv9架构,以满足全球对功能日益强大的安全、人工智能和无处不在的专用处理的需求。重大更新包括:增添了针对矢量处理的DSP、机器学习、安全等技术特性。

 


 据Arm高级副总裁、首席架构师兼技术院士Richard Grisenthwaite介绍,与Armv8相比,Armv9主要改进的部分在于机器学习、DSP方面。Armv9架构引入了增强的可伸缩矢量扩展SVE2,SVE2增强多项DSP和ML处理能力,例如Scatter-Gather DMA直接存储器访问,把它放到CPU架构中,能实现更多的循环、更大的DSP处理能力,从而支持更多的并行化,增强在CPU上本地运行的5G系统、虚拟和增强现实以及ML工作负载的处理能力。

 

事实上,SVE2可追溯至Arm与富士通2016年合作开发的可伸缩矢量扩展(Scalable Vector Extension, SVE)技术,该技术已经首次在富士通A64FX CPU内核中实现,并驱动了世界上最快的超级计算机“富岳”。在此基础上,Arm为Armv9开发了SVE2,以便在更广泛的应用中实现增强的机器学习和数字信号处理能力。

 

Richard Grisenthwaite透露,未来几年,Arm将进一步扩展AI能力,除了在Mali GPU和Ethos NPU中持续进行AI创新外,还将大幅增强CPU内的矩阵乘法指令(Matrix multiplication instructions)。他表示,越来越多的ML工作负载,甚至是在专用加速器上运行的ML工作负载,将在对性能或电源效率有关键要求的场景中变得更为常见,而矩阵乘法指令将成为Arm生态系统更大范围采用v9 CPU所迈出的重要一步。

 

此外是安全性。Armv9架构中引入了Arm机密计算架构(Confidential Compute Architecture, CCA)。机密计算通过打造基于硬件的安全运行环境来执行计算,保护部分代码和数据,免于被存取或修改,甚至不受特权软件的影响。

 

Arm CCA将引入动态创建机密领域(Realms)的概念,机密领域面向所有应用,运行在独立于安全或非安全环境之外的环境中,以实现保护数据安全的目的。例如,在商业应用中,机密领域可以保护系统中商用机密数据和代码,无论它们正被使用、闲置或正在传输中。

 

内存标签扩展(memory tagging extensions, MTE)功能也值得关注,尽管这并不是v9的新功能,而是随着v8.5引入的,但它旨在通过在分配时标记指针并在使用时进行检查,来帮助解决软件世界中两个长期存在的安全问题:缓存溢出(Buffers overflows)和释放后重用(use-after-free)。通过提升软件安全性并消除软件中存在的问题,可以提高软件在用户层面的安全信任度,如此一来,用户将更愿意通过计算机来处理事情,从而将增加对Arm架构的芯片使用。 

 

加速总体计算性能,应对摩尔定律失速挑战

 

在过去的五年里,Arm每年都以超过业界的速度在提升CPU性能,Armv9也不例外,预计未来两代移动和基础设施CPU的性能提升都将超过30%。Richard Grisenthwaite表示,这个数据是根据业界标准评测工具来衡量的,而且这样的算力提升完全是凭借于架构本身而非制程工艺来实现。另外,随着摩尔定律正在放缓,Arm未来将通过最大化地提升频率、带宽、缓存大小、并减少内存延迟,以最大化CPU 性能。

 

随着行业从通用计算向普遍的专用处理发展,每年两位数的CPU性能提升仍然是不够的。除了增强专用处理能力,未来,Arm的全面计算(Total Compute)设计方法将通过集中的系统级硬件和软件优化以及用例性能的提高,来加速总体计算性能。

 

通过将全面计算的设计原则用在包含汽车、客户端、基础设施和物联网解决方案的整个IP组合中,Armv9系统级技术将遍及整个IP解决方案,并改善个别IP。此外,Arm还在开发多项技术以提高频率、带宽、缓存,并降低内存延迟,从而最大限度地提升基于Armv9的CPU性能。

 


Richard Grisenthwaite称,事实上,此前Armv8不仅被广泛地应用于智能手机中,在其他领域,比如服务器、PC、网络设备中也都能看到Armv8的身影。同样,Armv9也将会应用于上述所有领域,尤其是在服务器和汽车市场。

 

按照Arm首席执行官Simon Segars的说法,Armv9将成为未来十年驱动下一个3000亿Arm架构芯片发展的技术先驱。在Armv9推出之后,率先推出的将是针对安全、DSP、ML这三个重点领域的Armv9-A系列,相关产品最快在2021年年底就会面世。之后,Arm还会逐渐推出Armv9-M与Armv9-R系列。

 

写在最后

 

十年一代架构升级,不得不说,Arm精简指令集架构真的很能打。

 

值得注意的是,新一代Armv9似乎引入了一些更为复杂的技术。Arm的经典指令集精髓是否还如从前?Richard Grisenthwaite坦承,引入新技术主要是为了解决新的问题,但Arm架构的精简指令(RISC)核心没有改变,依然遵循着注册到注册(registration to registration)的操作原则,从硬件角度来看,Arm指令集仍然保持着精益性。同时,考虑到兼容性对于Arm十分重要,所以Arm确保了在32位/64位v8架构中的所有功能均将在v9架构中得到支持。

 

此外,对基于Arm架构成长起来的本土芯片公司,最为关注的问题就是——Armv9 架构可否供给包括华为在内的中国企业?

 

Arm市场营销副总裁Ian Smythe表示,“Arm既有源于美国的IP,也有非源于美国的IP。经过全面的审查,Arm确定其Armv9架构不受美国出口管理条例(EAR)的约束。Arm已将此通知美国政府相关部门,我们将继续遵守美国商务部针对华为及其附属公司海思的指导方针。”

 

虽然不算一个完全正面的回应,但不受EAR约束这点确认无疑。

 

Arm是否会被英伟达收购,目前也是一个巨大的悬念。但不管怎样,放眼下一个十年,Arm仍将是人工智能与物联网时代最重要的公司之一。凝炼了人工智能、机器学习、安全性的Armv9,这把金钥匙铸造得正是时机。