安谋科技执行董事长兼首席执行官吴雄昂

 

12月22日,在无锡举办的“中国集成电路设计业2021年会暨无锡集成电路产业创新发展高峰论坛(ICCAD 2021)”上,安谋科技执行董事长兼首席执行官吴雄昂带来主题为《核芯动力XPU:定义全新的融合计算架构》的精彩分享,不少对芯片产业的前瞻性的观点和想法,以下为演讲全文,分享给大家:
    
非常感谢有机会和大家分享一下我们安谋科技对下一代智能计算架构的演进和对我们产业产生的机会与挑战的一些心得。
   

我们都知道,随着下一代技术革命的浪潮,我们整个的算力需求将会有百倍的提升,这样的算力需求对于我们来讲,有新芯片的机遇,有新软件的机遇,更重要的是通过算力的提升,通过新的数据,通过新的算法,我们给产业和消费者能够带来新的服务。在这样一个产业革命过程中,和之前IT革命的几波技术革命一样,算力永远都是我们新时代的生产力。跟过去不一样的是,算力从原来在主机上,到PC上,到服务器上,不断扩散,到了边缘,到了终端,但是不管产业怎么变化,我们看到唯一不变的就是通过算力,通过数据,通过软件、算法等等,提升整个世界的数字化、自动化进程,是我们每一代技术革命和产业革命的基础。
   

在这一波,需要什么呢?随着人工智能、5G等等产业的发展,我们需要更低功耗,更多样化,更定制化的算力选择。大家都知道,我们提到算力提升是计算演进的核心,我自己是做处理器,做CPU出身的,我们看到在每一代的芯片演进过程中,算力的提升不仅仅是来自于制存,也不仅仅来自于算法,也不仅仅来自于架构,而是多样化的。从CPU来讲,每一代CPU架构可能会给我们带来百分之二三十的算力提升,每一代新制存可以会给我们带来百分之二三十甚至三五十的提升,同时我们也需要对整个芯片架构和新的计算单元架构有更多的提升。这样的提升,比如说在最近特斯拉发布的芯片上也得到了体现。我们都知道,我们今天手上的iPhone13主处理器芯片算力是第一代的300多倍,今天在手机上,不仅仅有多核的CPU,多核的GDU、NPU,还有各种新的软硬件计算单元在里面。
   

整个算力提升必须基于核本身架构、芯片架构,才能达到我们这样的需求。这样的需求演进在每一代中都会有一个快速提升的过程,手机,从苹果涉及出现以后,有非常快速的进程,这里的进程要感谢整个产业的共同努力,除了在单核架构上,多核、大小核和低功耗上做出贡献以外,更重要的是我们在制造工艺上能够让这样的架构、功耗得到实现,同时我们在OS、算法、软件上,整个产业合作,加快了算力提升。因此,在苹果手机的这十几代过程中,我们有数百倍的提升。今天这样的算力扩张到了汽车,从第一代的智能座舱,到未来的L4、L5的演进,这又需要数百倍的算力,我想在短短两三年之前,大家可能不会想到车上会呼吁要有1000T的算力,前两天蔚来发布,连他的价格比较低的ES6都要有1000T的算力。这让我想起了在移动计算时代,整个行业也为了到底是双核够了、还是要有8核,甚至有人提出16核,进行了辩论,我们的经验告诉我们,只要硬件行业能把硬件做出来,软件行业的兄弟们一定坑人把它吃干抹净还不够。我们大部分是搞芯片的,我们只要坚信,算力的快速提升是竞争力的核心根源之一,我们做好从架构演进到制程等等的服务,这样的应用就会推进,这样的成就就会推动自动驾驶,我们要实现自动驾驶,实现所谓人工智能世界、数字化世界、元宇宙等等,同样离不开在终端、在边缘、在数据中心,数据再有倍、百倍的提升,这是一个前置条件,自动驾驶的演进又重复了这个历史。
   

回到技术角度,今天作为一个处理器的核心IP供应商,我们的主要专注点,那么处理这些数据的架构未来怎么演进,从PC时代,以X86CPU为主导,到了移动时代以CPU+GPU为主导,我们看到架构的不断演进,这个演进从一开始的多样化,到慢慢演进成以X86和Arm为主。就像我们讲历史规律一样,分分合合,核心是怎么样能够更好更快地提升算力。这个算力的基础是我们算什么,我们是针对什么样的数据流做出什么样的计算。
   

讲到全新智能架构的时候,我们要看这是干什么的,我们今天是技术为主,就不讲那么多了,也不科普CPU是干什么的。但是我们都知道,CPU作为每个算力芯片必不可少的一个计算单元,它的单核架构和工艺提升对算力提升的演进贡献日趋缓慢,我们不能单单依赖于像PC或者移动计算一开始时代一样,不是多堆几个CPU,把它放到最先进的工艺上就能解决现在算力提升的需求;也不能像移动时代一样,仅仅多搞几个多核架构、大小核过程功耗的设计来降低算力功耗的需求。这样的提升日益缓慢。因此,我们看到在算力快速提升过程中,传统架构越来越不能满足需求,怎么解决这个问题?回到数据的问题,我们想要解决的问题是,在PC、手机时代,很多数据是用户产生的,例如微信、拍照、录像等等,这样的数据是多少呢?在座每一个人,每个月,能要好多少数据量,我算了一下我自己,大概5-10个G,在座的有每个月消耗量超过10G的吗?刷抖音刷多了是吧,大部分人都很少。但是我们知道,一个全自动驾驶的车,它一个小时产生的数据量,就超过了我们一年,作为一个移动用户产生的数据流。新的造车势力发布的车上,已经有12个摄象头,很多车厂说下一代要有接口能接16个摄象头,再加上微波雷达,再加上激光雷达
   

所有这些数据,跟过去不一样的是:1、高密度,摄象头的精细度从HD到2K、4K、8K,不断演进。2、实时性,不管今天做自动驾驶,高速,还是低速,我们近乎实时性的处理这些数据流,理解这些数据流,然后帮助做出一个实时性的决定。3、这是一个多样性的数据。
   

在这样的情况下,针对这样的数据流,数据流的处理可能已经成为将来系统里面,芯片里面会占用最大面积,也是需要最快速度的提升的一个核心点。我们认为新的架构必须针对高密度的数据流处理,有专有的核心计算单元,但是这个专有计算单元、单有的域计算又会产生一个问题,刚才讲到数据流有多样性,怎么样有一个新的架构,不仅仅是传统的DSA,而是在传统机械基础上能够和通用进行融合,做出多样化的可堆叠的架构,能够处理这些多样化的数据流,进行实时性的数据高密度计算,给我们带来十倍、百倍的算力提升。这样的提升,离不开制程和软件的支持,如果我们的计算架构按照现在CPU、GPU,就算有现在的制程和软件演进,也没有办法达到百倍的提升。因此,全新的计算架构是必须的。
   

怎么做这件事情?我想不仅仅是我们安谋,我们整个产业在探索,用不同的路径实现这样的目标,实现这个目标,有些基础必须有:1、CPU继续存在,2、用GPU做图形处理,更重要的是对视频流、安全等等,这些新的需求,必须有专用的处理单元来解决这些问题,这些专用的处理单元又必须和现有的CPU、GPU进行融合。因此产业提出来XPU,XPU可能在不同的公司、不同的流派,有不同的理解,但是核心关键点一样,通过多个处理器单元的新架构融合,来解决我们面临的快速算力提升需求。
   

只有通过这样的架构,通过一个可扩展、可堆叠的架构方式,才能结合现在CPU、GPU优势和GSA各种新的计算单元能力,进行融合、堆叠,来快速地满足多样化的算力需求,不管是刚才提到的自动驾驶,还是我们的智能家居摄象头,还是新一代的移动设备,还是将来元宇宙的接入设备,不管是AR、VR、SR,更重要的是在数据中心也需要算力提升。我们看到最近炒的最热门的元宇宙,核心是整个世界的数字化,通过数字化的进程,把我们的现实世界和数字世界、虚拟世界融合在一起,这样一个核心需求又回到了算力的多元化。
   

安谋科技怎么应对这个产业需求,安谋的成立,前身是安谋中国,我们作为一个中方控股的合资公司,使命是服务中国的科技产业,建立中国本土的研发能力,赋能中国本土半导体生态。我们一方面继续支持Arm架构发扬光大,打造Arm兼容CPU,同时投入了巨大的研发,坚持自主架构XPU研发。从做CPU到三核VPU,到ISP等等,今年我们发布了自研SPU新频偏核心动力,我们希望通过新架构和IP核,结合Arm CPU优势,给产业提供更完整的解决方案,特别是针对刚才讲的智能物联网、自动驾驶等等高算力的智能计算的需求。
   

我们坚持走开放创新的道路,成立了智能计算产业技术创新联合体,把我们MPU的经验贡献出来,和产业一起打造一个新的下一代开放、开源的超域架构指令集,这个指令集不仅仅提供MPU,或者NPU架构,而是希望和大家一起打造全新的生态。
   

刚才提到,安谋科技的使命是创造核心价值,赋能本土产业,到今天,我们本土的自研团队已经超过了600人,自主研发专利也有100多项,更重要的是我们的MPU产品不仅仅是在智能家居产品中已经量产,在车载方面也开始量产,我们也很高兴得到各大车厂的认可,作为一个核心IP供应商,我们规划将在今年推出300-100TOPS算力自动驾驶芯片设计。