近期车用芯片供货紧张导致大众部分停产,再次突显了芯片对汽车的重要性,也显示出握有上游资源的重要性,对传统车厂来说这是一次警告,对苹果来说,则是一则喜讯。苹果在芯片领域耕耘多年,拥有丰富的资源。苹果可以用手机巨大的出货量摊薄汽车芯片高昂的研发成本,以高性价比超越英伟达和 Mobileye,当然也可以轻松碾压特斯拉。同时亦可借助芯片提升造车的成功机率。  

 

汽车进入智能化时代后,几颗关键的主芯片,包括汽车座舱、智能驾驶和 V2X 芯片,都与手机 SoC 芯片高度重合,手机领域芯片稍作修改就可用于车载领域。这也使得高通、华为、联发科、三星手机芯片巨头纷纷进入车载领域。

 

苹果自动驾驶原型车上搭配的大量传感器

 

2020 年 11 月 11 日,苹果自研芯片 M1 正式亮相,这颗 M1 芯片是苹果从手机领域向手机以外领域扩展的标志,这颗芯片稍作修改就可以用于汽车座舱和无人驾驶。苹果收购了英特尔的基带团队,将来也能推出 5G V2X 芯片。

 

下表是苹果 M1、英特尔最新笔记本电脑芯片 TigerLake、英伟达旗舰 Orin、特斯拉 FSD 四者对比。

 

 

实际苹果 M1 只是试水性质。苹果的 A14 众所周知,是两个 Firestorm 大核加四个 Icestrom 小核,晶体管数量是 118 亿个,晶体管密度是 1.34 亿 / 平方毫米,L2 Cache 是 8MB。M1 沿用了 A14 的设计,晶体管密度完全一样,只是增加了两个大核,增加了 L2 Cache,增加一两个专用硬核,除此之外并没有新东西。甚至只是简单的添加,连优化都没有做,L2 Cache 多出来的 4MB 是外挂的,叫 L2.5 或许更合适。

 

苹果这么做,复用了 A14 的设计,摊薄了成本,后续苹果会推出一系列优化过后的芯片,性能将更强。GPU 算力上,M1 已经是英伟达 Xavier 的两倍,英伟达的 Xavier 的 GPU 算力是 1.3FLTOPS(FP32),深度学习上,Xavier 比较高,有 30TOPS(INT8)。但 M1 要想做到 Orin 的 200TOPS(INT8)也易如反掌。

 

英伟达最新的 A100 GPU 是采用台积电 7 纳米工艺制造的,总共有 542 亿晶体管,裸晶面积有 826 平方毫米,晶体管密度仅为 0.656 亿 / 平方毫米。跟苹果 M1 的密度差异巨大,要知道 A100 是纯 GPU,电路比较单一,互连较少,很容易做高密度,如果是 Orin 这种 SoC,密度会下降很多,估计只有 0.55 亿 / 平方毫米。不过这也算不错。

 

英伟达的 GA104 采用三星的 8 纳米工艺,晶体管数量只有 174 亿个,裸晶面积高达 392 平方毫米,晶体管密度只有 0.444 亿 / 平方毫米,台积电的 7 纳米工艺轻松秒杀三星的 8 纳米工艺。如果 Orin 用三星的 8 纳米工艺,裸晶面积会高达 500 平方毫米,面积大一倍,硬件成本也几乎增加 50%以上。因为 GPU 的众核架构,内部连线多,晶体管密度很难提高,但 GPU 擅长并行计算,NPU 只能做 MAC 运算,NPU 替代不了 GPU ,GPU 还得留着。 

 

苹果 M1 的裸晶图

 

这张图分辨率是 1180*1125,16 核 NPU 所占面积大约 1/15,也就是 7.93 平方毫米,有 11TOPS 的算力,如果苹果 M1 也将裸晶面积扩展到 309 平方毫米,并且把多出来的都用 NPU,那么就多出来 263.56TOPS 的算力,加上原本的 11TOPS,有 274TOPS,扣除掉一些连线和其他元件,密度自然不会这么高,但 200TOPS 还是没有任何问题的。

 

再来看 CPU 部分,做自动驾驶 SoC,CPU 的算力需求一样很高,传统智能驾驶的定位、传感器融合、规划、决策、通讯性能都取决于 CPU,人工智能的 NPU 算力只负责感知中的深度学习卷积运算,面非常窄,80%的性能还是由 CPU 决定,按照 ARM 的观点,L4 级自动驾驶芯片的 CPU 算力要大于 250K DMIPS,同时功耗要低于 30 瓦。

 

 

英伟达的 Orin 是 ARM 的 Hercules,也就是 Cortex-A78。通过上表可以看出 M1 的 L1/L2 容量、解码宽度、ROB 规模都非常大,往往是其它 CPU 的两三倍(其中 12 MiB 的 L2 容量是四个大核共享,平均 3 MiB/ 核心,但运行单线程应用的时候,理论上可以全部由单个核心使用),前端、调度单元、缓存的庞大规模,保证了执行单元能最高效率发挥性能。因此单线程成绩异常优秀,足以碾压英特尔桌面级 CPU,也足以超越 Orin,更不要说远不如 Orin 的特斯拉 FSD。

 

 

上图为苹果 M1 架构推测。为什么 M1 的单核性能几乎是目前全球最高的?关键在于其 IPC(执行指令每周期)也就是图中的解码器是 8 个,简单地说就是一个周期能执行 8 条指令,而英特尔是 5 个,英伟达是 4 个。特斯拉的 A72 只有 3 个。因此同样频率下 M1 单核性能是英伟达的一倍,比英特尔多 60%。在乱序执行性能方面,M1 要远比英特尔和英伟达强。为什么 M1 可以有 8 个,英特尔和英伟达不能增加吗?这主要是 ARM 架构(RISC,精简指令集)和 CISC(X86 架构用的复杂指令集)导致的。

 

CISC 指令的长度不固定,即 1-15 比特。RISC 则是固定的。因此长度固定,可以分割为 8 个并行指令进入 8 个解码器,但 CISC 就不能,它不知道指令的长度,因此需要预测指令的长度,也就是分支预测 Branch predictor,在分支指令执行结束之前猜测哪一路分支将会被运行,以提高处理器的指令流水线的性能。分支预测器猜测条件表达式两路分支中哪一路最可能发生,然后推测执行这一路的指令,来避免流水线停顿造成的时间浪费。如果后来发现分支预测错误,那么流水线中推测执行的那些中间结果全部放弃,重新获取正确的分支路线上的指令开始执行,这招致了程序执行的延迟。这就好像火车过岔路口,不知道哪一个正确,走过去一看,错了,只能倒回来走另外一条。

 

现代微处理器趋向采用非常长的流水线,因此分支预测失败可能会损失 10-20 个时钟周期。越长的流水线就需要越好的分支预测。分支预测器异常复杂,这就使得解码器很难增加,英特尔通过 CPU 内部的微操作,经历长时间研发,增加到 5 个(1 个复杂解码器+4 个简单解码器)。不过遇到有些长指令,CISC 可以一次完成,RISC 因为长度固定,就像公交车站,一定要在某个站停留一下,肯定不如 CISC 快。也就是说,RISC 一定要跟指令集,操作系统做优化,RISC 是以软件为核心,针对某些特定软件做的硬件,而 CISC 相反,他以硬件为核心,针对所有类型的软件开发的。

 

英伟达照搬 Cortex-A78,其解码器只有 4 个,很难增加,那样等于重新自研架构了,可英伟达已经放弃自研架构了,M1 的指令重新排序缓冲区 ROB 也具备压倒性优势,这就是自研架构的优越之处。

 

再说特斯拉芯片设计能力远逊于英伟达,英伟达都选用 ARM 公版架构,特斯拉自然不可能自研架构,特斯拉下一代采用台积电工艺的二代 FSD 芯片,其 CPU 估计会选用 ARM Cortex-A76,因为第一代 FSD 是 2019 年 4 月推出的,采用的是 ARM 在 2015 年推出的 A72 架构,第二代 FSD 预计 2021 年或 2022 年推出,最有可能选用的 CPU 架构是 ARM 在 2018 年推出的 A76 架构。

 

现代手机芯片一般都是大小核设计来控制功耗,苹果、高通都是功耗控制顶尖高手。特斯拉显然没有这个能力,直接堆叠了 12 个 A72,第一代 FSD 功耗高达 36 瓦,峰值可能达 72 瓦,这个肯定无法通过 ASIL 车规的。Orin 的 8 核,应该也是大小核设计。第二代 FSD 估计只会增加比较容易做的 NPU,为降低功耗,CPU 方面不会增加多少性能,估计仍然是 125-150K 左右。

 

苹果认为多核是无意义的,CPU 通用计算能力在某些特定场合是要下降很多的,因此苹果提倡多个专核或者叫硬核。M1 的专核包括图像处理、视频编解码、音频处理、加密解密、神经网络加速。用在座舱或自动驾驶领域,可以把音频处理、加密解密、视频编解码换成双目视差、光流、ISP。

 

M1 几乎和 A14 一样,研发成本可以忽略。而 A14 的成本大约为 75-80 美元,M1 可以再低一点点,大约 70 美元,即使 M1 将 FPU 提高到 200TOPS(单纯增加 FPU 几乎不增加研发成本,堆叠更多 MAC 而已),其价格也会远低于英伟达 Orin 的价格,大约只是英伟达的 1/2-1/3。不过苹果不会正面与英伟达竞争,苹果不会卖芯片,苹果还是会打造自己的生态体系。这一次是电动车生态体系。

 

除了苹果,高通 Ride 的性能也足以抗衡英伟达 Orin,高通有着每年至少 6 亿片的出货量,也可以分摊很多成本,包括研发成本和硬件成本。

 

要看到 A14 几十亿美元的研发经费,还有上亿片的订单数量,世界上没有第二家企业能做到单一芯片上如此大的出货量和如此大的研发投入(高通能达到这个出货量,但单一芯片的研发投入肯定无法和一年只做一个芯片的苹果比)。如果只有几十万片的订单,最终摊在芯片上的成本可能要上万美元,再有就是目前高性能计算芯片晶圆代工被台积电垄断(三星的 8 纳米 LP 那可怜的晶体管密度连台积电的 12 纳米都不如,英伟达迟早也得转移到台积电代工,否则等着被英特尔或 AMD 碾压),产能非常紧张,一些几百万片的订单被台积电推后超过 1 年。而苹果是台积电第一大客户,自然不会担心供应链的问题。中国急需发展的是晶圆代工而不是短平快且缺乏技术含量的的 AI 芯片设计,即使设计出来,也没没有对应的代工产能,只能是纸上芯片。

 

汽车进入电动化和智能化时代后,出现两大变化,一是造车门槛大大降低,二是芯片重要性大大提升。燃油车和非智能化时代,苹果无法在汽车领域复制其手机领域的成功,但电动化和智能化时代,苹果可以复制其在手机领域的成功。