手机之王夺下桌面设备的王冠,那么代价呢?

 

一周多前,水果公司更新了MacBook产品线。

 

在放出了2021版格型MacBook Pro系列的同时,更是继去年首发桌面级M1处理器之后,拓展出性能更加强悍的M1 Pro和M1 Max系列芯片。

 

19日线上发布会那会,C次元没有跟进。彼时,我们虽然有点想法,但众多疑惑和猜测,还需要等测评数据来进行验证。当然现在,随着越来越多的信息以及测评陆续放出,有些话终于是可以讲了。

 

首先,深度解读一下苹果在发布会上的性能对比图吧。注意,苹果毕竟是苹果,和部分厂商为了对比图好看而找软柿捏完全不同的是,库克这一次是直接对标现阶段顶级的游戏笔记本微星 GP66 Leopard——

 

测试对标的是微星 GP66 Leopard (11UG-018),采用的是Intel的11代i7-11800H处理器,国内售价超过13,000元。M1 Pro/Max的CPU在同功耗下,性能是i7-11800H的1.7倍。 

 

 

而在面对同样GP66时,仅仅“大杯”的M1 Pro就能用30w左右的功耗,实现其配备的RTX3070型图形处理器100w功耗才能达到的性能。

 

 

而更高级的M1 Max处理器则直接找上了顶级游戏本雷蛇Blade 15 Advanced“麻烦”。看图,在60w功耗下,“超大杯”M1 Max处理器的GPU部分,其性能已堪比RTX3080的160w状态。

 

 

那么,目前爆出的跑分数据呢?

 

 

从最新曝光的Geekbench 5跑分数据来看,顶配 M1 Max 的单核跑分为1749,多核达到了11542,几乎是M1芯片的两倍,与2019款Mac Pro高配版(搭载12核 Intel至强W-3235处理器)相差无几。

 

01、往死里“挤牙膏”的苹果

 

“挤牙膏”,是市场和用户相当一段时间来,对Intel企业策略的一种调侃。

 

从2008年到 2017年长达9年时间,Intel处理器更新了7代,在消费者市场一直是i3双核4线程,i5四核四线程,i7四核八线程的步调,每一代比上代同频性能提升3%-5%,雷打不动。

 

久而久之,Intel也得到了一个“牙膏厂”的外号。

 

苹果自研桌面端芯片的初始动机,笔者无从知晓,但无论如何,相信至少有一部分原因是对这其“挤牙膏”策略忍无可忍。只不过这一次,苹果挤得实在大力了一些,不但挤兑到了“牙膏厂”,甚至顺带狠狠恶心了一把皮衣老黄和苏妈。

 

下面,让我们细品下苹果M1系列的“中杯”“大杯”和“超大杯”。

 

CPU部分,10核心的M1Pro/M1Max由8个性能核心和2个能效核心构成。

 

可能很多人对这几张图没有直观感受,最左边最小的是基础款苹果M1处理器,他的晶体管总数是160亿,采用了台积电N5工艺制造,而安卓端目前主流的旗舰芯片骁龙888在算上基带后其晶体管总数也不过100亿,采用的还是稍差的三星5LPE工艺。

 

▲M1、M1 Pro、M1 Max处理器核心X光图

 

而右边两个,大杯M1 Pro和超大杯M1 Max,其总晶体管数目来到了惊人的337亿和570亿,(几天前阿里巴巴公布的128核服务器专用芯“倚天”拥有600亿晶体管)一个M1Max的晶体管数量相当于6块手机端的骁龙888。

 

先来细品一下“超大杯”的M1 Max。

 

其中CPU部分为超宽执行架构,性能核心拥有192KB的指令缓存,128KB的数据缓存和高达24MB(12MB*2)的二级缓存,而2个能效核心则同样拥有128KB指令缓存,64KB数据缓存和4MB的L2缓存。其能效核心缓存的富裕程度,已经超越了大多数安卓端所有手机SOC的超大核。

 

而在这样超额的晶体管背后,还有着恐怖的性能和外围电路。

 

▲M1 Max 芯片X光照片

 

最显眼的,莫过于32核心苹果自研GPU核心阵列,整齐地排列在处理器的中心,由控制器和总线连接着,旁边是面积极大的片上SLC缓存,如果每一个缓存区域的大小是16M,整个处理器的SLC缓存可以达到64M。

 

尽管并不恰当,但这里可以拉来作个对比——目前主流安卓旗舰的处理器骁龙888,其L3缓存大小仅为4M!

 

左右两边则是4组128bit宽度的LPDDR5内存控制器,共同组成了M1 Max“毁天灭地”的内存最大带宽,在满配64G片上LPDDR5 6400内存的前提下,最大带宽达到了惊人的409.6GB/s。

 

而与之对比,桌面端intel的11代处理器11800H的最大内存带宽仅为51.2GB/s,这在一些内存带宽敏感的深度学习应用中将会提供无与伦比的硬件优势。

 

说完“超大杯”,继续看看“大杯”的M1 Pro。

 

 

M1Pro则是M1 Max这个“巨无霸”砍掉下半部分构成的。但是即便如此,其晶体管总数仍达到了惊人的337亿,并且还保留了32M的SLC缓存和2组128bit LPDDR5内存控制器。当然,“腰斩”后204.8GB/s的内存带宽依旧惊人。

 

挤完了“牙膏厂”,再来聊聊对于苏妈以及皮衣老黄的冲击。

 

如果不考虑各个架构和平台的差异以及各个API的效率差异,仅仅考虑GPU的浮点算力:

 

满血的M1 Pro为16核心GPU,浮点算力高达5.2Teraflops(tflops),足以对标AMD的RX5500显卡或者NVIDIA的RTX 1660 Ti;

 

哪怕是小刀的M1 Pro(14核心),算力也达到了4.6tflops,直接对标笔记本上满血的RX5500M、RTX1650 Super;

 

而大哥M1 Max的满血版更是恐怖如斯——浮点算力10.4TFlops,执行单元4096个,并发线程数极限98304个,纹理填充率每秒3270亿,像素填充率每秒1640亿。直接可以对标满血的RTX2080,或者降低了功耗的缩水版RTX3080。

 

皮衣老黄赢的如此艰难,至于苏妈,则需要祭出RX Vega56才能勉强将超越32核心GPU的满血M1 Max。

 

在这里,需要再一次强调一点——正如本文一开始解读的苹果发布会PPT里的内容,追上160w的RTX3080的浮点性能,M1 Max“满血版”只需要60w的功耗。

 

02、但是,库克,代价是什么呢?

 

回顾M1芯片推出之时,那是在2020年的11月,差不多一年前。

 

彼时的M1,就拥有和现在M1 Pro/Max一样的单核心性能,而多核心性能的差距仅仅来自于核心数量从8变成了10。

 

GPU部分则更为简单,M1拥有最高8个GPU核心,对应M1 Pro和M1 Max的16核心/32核心,就是单纯的1:2:4的性能关系,无论是3D Mark分数还是浮点算力都是如此。

 

换而言之就是,在工艺没有进步的前提下,单核心一年时间没有任何变化。

 

如果往回看苹果A系列处理器的超大核心,每一代的进步都是极其可观的,但是从A12开始,这个进步开始放缓,到A13/M1这一代,苹果已经开始部分依赖代工工艺的进步和频率的提升了。

 

而苹果的对手,不知道是牙膏挤多了还是突然发力了,几乎不约而同将在明年推出极其具有竞争力的竞品。

 

首先是苹果的老伙伴对手。

 

如无意外,2022年将会是“牙膏厂”GPU爆发元年。最新的Xe架构GPU很快将会出现,在Intel当前制程工艺落后于台积电(自然也就落后于使用台积电先进工艺的苹果)的情况下,Intel仍预期将实现相对于苹果当前对比基准线产品“大约一倍”的能效提升。

 

不要认为这是吹牛,以目前泄漏的Intel DG2处理器满配置512处理单元来看,苹果在GPU上对Intel显卡集群的优势将会迅速缩小。

 

▲未来Intel DG2移动端独立显卡的预估配置与参数

 

至于AMD,其RNDA2架构也有着超过50%的预估提升。

 

目前苹果在桌面产品上的优势,若以非专业人士的视角来看,对于友商竞品而言堪称碾压性。但其代价就是:核心架构在这一年将原地踏步,以及将为超大规模台积电最新制程工艺而付出极高的成本。

 

须知在芯片设计领域,虽然同样的技术条件下规模越大(也就是晶体管数量越多)某些程度上产品的表现会变得更好。但是事实上就半导体产品的技术指标来说,同样的性能发挥和功耗下,用的晶体管越少,越说明你的能力强大,因为这意味着企业能用更低的成本做出来。

 

半导体作为一个研发密集的产业,其研发投入是固定投入,晶体管数量则是变动投入,随着产品的量产,大家自然希望固定投入占比越高越好,变动投入占比越低越好,实现同样的功能,自然是晶体管越少越好。

 

03、苹果的野望与国产的方向

 

很多人关心苹果新M1 Pro/Max系列处理器的CPU和GPU性能,但是很多人忽略了苹果在这几年一直着重发力的另一个领域,NPU,也就是神经处理单元。

 

NPU作为一种专用计算单元,对于神经网络,深度学习相关的运算相对于CPU/GPU这样的通用计算单元有着他们无法比拟的能效与性能优势,在图像识别,自然语言处理这类任务中NPU往往可以相对于CPU/GPU用更低的负载更高的速度更好的完成。

 

正因为优点如此显著,所以在移动端的许多未来应用中,端侧的NPU算力成为了许多公司的发展方向。无论是大陆的海思还是紫光,台湾的联发科,美国的高通,亦或者韩国的三星,他们的移动端处理器最近几年都在朝着强化神经网络算力的方向发展,这些算力最终都会落地。

 

 

当然,在这一点上,苹果又走到了大家的前面。以苹果在iOS 15中更新的“文字识别”功能为例,苹果可以直接、实时,没有任何延迟地读取一张照片中的文字信息,并且允许用户简单的将其复制下来。

 

与之对比,类似的功能在安卓端,则通常需要例如小米传送门或者华为智慧识屏的特有功能——通过长按触发后经过运算分析后读取出来。这背后看似是功能的差异,实际上是算法和算力的巨大鸿沟,苹果无感,无延迟,无范围限制的文字识别,有非常大的概率是苹果为未来的可穿戴智能设备对外界环境低功耗全时段无延迟感知进行预先研发过程中的一个简单成果落地。

 

仅仅有感和无感、有延迟和无延迟之间,到底有何差距?

 

我们不妨想象一下,未来的智能眼镜允许用户在转头一撇中,获取足够的信息,并且高效无感的为你处理完毕。因此,用户就不在需要反复看一个公告、反复记忆一个地标、反复的阅读一个内容,更不需要把他拍下来然后逐字逐句的读取。

 

未来的智能穿戴设备或许可以直接帮你进行阅读和理解,拆分和挑选重点,在国外旅游时的菜单翻译只需要一看就在瞬间完成替换,复杂公式的计算不再需要拍照录入而是自动实时的完成,这对生活的便利程度提升是难以想象的,而这一切的背后都需要强大的算力与算法的支撑。

 

然而,这或许只是苹果野心的一小部分。

 

国内目前在做较为先进制程芯片的公司有很多,大多数都是寻找台积电这类代工厂进行代工,少数会选择中芯国际这类国内的代工厂,同时也有大量的公司在做人工智能/神经网络相关的芯片研究与开发,例如寒武纪,地平线,芯原,中星微等等。

 

这个方向目前来说是一个独立的,起跑线相对接近的赛道,不像ARM/X86架构下国内与国外起点就有十年的差距和大量的技术/专利壁垒,同时这也是未来社会快速发展的方向之一,背后蕴含着千亿级别的庞大市场和需求。

 

 

微信号|汽车公社 C次元

作者:秋元明、查攸吟