上周,苹果公司发布了基于他们新 Apple Silicon M1 SoC 芯片打造新 Mac 产品,这个新闻在行业内引起了轰动,因为这标志着苹果正式开启了从 Intel 的 x86 CPU 过渡到该公司自己基于 Arm 架构设计的内部产品的两年计划第一步。

 

在发布会期间,我们根据该公司已经发布的 Apple A14 芯片(在新一代 iPhone 12 手机中使用)撰写了一篇详尽的文章,当中包括对 Apple 的新 Firestorm 内核的微体系结构的深入研究,这些内核同时为 A14 和新的 Apple Silicon M1 提供动力,如果您还没有机会看的话,我建议您阅读《深度解读苹果 M1 芯片》。

 

几天以来,我们已经能够接触到首批 Apple Silicon M1 设备之一:全新的 Mac mini 2020 版本。在上周的分析文章中,我们基于 A14 得出了数字,而这次,我们根据实际的新高功率设计测量了实际性能。我们没有很多时间,但是我们将为您带来与新的 Apple Silicon M1 相关的关键数据点。

 

Apple Silicon M1:Firestorm 内核的 3.2GHz 和约 20-24W TDP?

在 Apple 的演示文稿中,缺少芯片时钟频率的实际细节以及可以保持最高性能的 TDP 是他们的一贯风格。

 

 

但我们可以确认,在单线程工作负载中,Apple 的 Firestorm 内核现在的时钟频率为 3.2GHz,比 Apple A14 的 3GHz 频率提高了 6.66%。只要有散热空间,此时钟也适用于所有内核负载,除了 4 个 3.2GHz 性能内核以外,我们在 2064MHz 处还可以看到 4 个 Thunde 效率内核,这也比 A14 上的 1823MHz 高出很多。

 

除了四个高性能的 Firestorm 核心之外,M1 还包括四个 Icestorm 核心,旨在降低闲置功率并提高电池供电情境下的电源效率。4 个性能内核和 4 个效率内核都可以同时激活,这意味着这是 8 内核 SoC,尽管所有内核的性能吞吐量并不相同。

 

发布会期间最大的问题是这些设计的功耗。苹果已经提供了包括性能和功率轴在内的几张图表,但是我们缺乏比较数据来得出正确的结论。

 

由于我们可以使用 Mac mini 而不是 Macbook,因此这意味着设备上的功率测量非常简单,因为我们只需将仪表连接到设备的 AC 输入即可。值得一提的是,由于我们在这里测量的是交流电源,因此功率数字不能直接与电池供电的设备相提并论,因为 Mac mini 的电源会带来比其他设备更大的效率损失。

 

尤其重要的是要记住,我们通常谈到的处理器中的 TDP 数实际上只是此处提供的数字的一个子集,因为除了 SoC,我们还在测量 DRAM 和电压调节开销,而这并不是包含在 TDP 数据中,也不包括笔记本电脑上的典型封装电源读数。

 

 

从空闲的 Mac mini 处于默认状态开始,我们把打开电源后的设备看作空闲状态,在通过 HDMI 连接到 2560p144 显示器,Wi-Fi 6 和鼠标和键盘,我们看到的设备总功率为 4.2W。鉴于我们正在测量设备的交流电源,这在低负载下可能效率很低,这在很大程度上是有意义的,并且代表了一个很好的数字。

 

该闲置数据还用作后续测量的基准,在这些测量中我们计算“有功功率”(active power),这意味着我们通常采用的方法是测量总功率并减去闲置功率。

 

在 3.2GHz Firestorm 内核上的平均单线程工作负载(例如 GCC 代码编译)期间,我们看到设备功率高达 10.5W,有功功率约为 6.3W。有功功率与我们对更高频率的 Firestorm 内核的期望非常一致,并且对于 Apple 和 M1 来说是极有希望的。

 

在工作量更大的 DRAM 上,从而在 Mac mini 上的 LPDDR4X 级 128 位 16GB DRAM 上造成更大的功率损失,我们看到有功功率高达 10.5W。有了这些数据,新的 M1 可能会给人留下深刻的印象,并且其展示能力还不到高端英特尔移动 CPU 的三分之一。

 

在多线程方案中,电源高度依赖于工作负载。在 CPU 利用率不高的内存密集型工作负载中,我们看到有功功率为 18W,平均工作负载约为 22W,在计算繁重的工作负载中峰值约为 27W。这些数字通常是您希望与其他平台的“ TDP”进行比较的数字,尽管要再次进行比较,您需要进一步减去一些在 Mac mini 上测算的开销。最好的猜测是 20 至 24W 的范围。

 

最后,在 GPU 方面,我们看到 GFXBench Aztec High 的功耗降低了 17.3W。这将包含大量的 DRAM 功耗,因此 Apple GPU 的功耗绝对是极低的功耗,并且远远小于 CPU 可以消耗的峰值功率。

 

存储差异

除了 CPU 和 GPU 上的其他内核外,M1 与 A14 的主要区别还在于它运行在 128 位内存总线上,而不是在移动 64 位总线上。在 8 个 16 位内存通道和 LPDDR4X-4266 级内存中,这意味着 M1 达到了 68.25GB / s 的内存带宽峰值。

 

 

在内存延迟方面,我们发现 M1 较之 A14(预期的)减少了,在 128MB 完全随机测试深度(full random test depth)下测量为 96ns,而在 A14 上为 102ns。

 

还需要注意的是性能核心的 12MB L2 缓存,尽管在这里苹果似乎仍在对单个核心可使用的数量进行分区,因为我们仍然看到 8MB 之后的延迟有所增加。

 

M1 还包含一个较大的 SLC 缓存,芯片上的所有 IP 块都应可以访问该缓存,但我们不确定。不给过测试结果的确与 A14 相似,因此我们假设这是 SoC 上类似的 16MB 缓存块,因为某些访问模式超出了 A14 的访问范围,这在一定程度上是合理的较大的 L2。

 

 

我们从未真正有机会进行测试的一个方面就是,苹果的核心在内存带宽方面到底有多出色。在 M1 内部,结果是突破性的:一次 Firestorm 可以实现高达 58GB / s 的内存读取速度,而内存写入速度则为 33-36GB / s。最重要的是,根据您使用的是标量指令还是矢量指令,内存副本(memory copies)的传输速度可以高达 60 至 62GB / s。单个 Firestorm 内核几乎可以使内存控制器饱和的事实令人震惊,因为这是我们以前在设计中从未见过的。

 

因为一个内核几乎可以利用整个内存带宽,所以让多个内核同时访问事物实际上并不会增加系统带宽,但是实际上由于拥塞会降低有效实现的总带宽。当在内存副本(memory copies)中同时使用性能核心和效率核心时,我特别指出了这一点——4 个大核心以 59GB / s 的内存副本(memory copies)达到峰值,但是一旦添加了效率核心,它就会降至 49GB / s,当所有内核都处于活动状态时,速度可降至 46GB / s,这表明系统中某处中存在瓶颈。

 

除了增加时钟速度,增加 L2 之外,这种内存提升还很有可能是 M1 区别于 A14 之外的另一个关键点,并让其有能力与现有的 x86 厂商的竞争。

 

基准测试

由于我们使用 Mac mini 的时间很少,而且这不仅是一个 macOS 系统,而且是一个新的基于 Arm64 的 macOS 系统,因此我们无法使用我们通常使用的基准测试。在发布时,我们已经进行了各种可用的测试,以使我们对性能有一个大致的了解:

 

 


Cinebench 是在 macOS 和 Apple Silicon 上初露头角的一个特定基准。在基于 Cinema4D 的首次基准测试中,我们看到苹果 M1 与市场上大部分的 x86 CPU 相比,拥有相当大的优势,但输给了 Zen3 和 Tiger Lake CPU,后者似乎仍然具有优势。

 

值得注意的是,在 x86 模式下,Rosetta2 基准测试的性能不仅能够跟上过去的 Mac,而且还能胜过它们。

 

 

在多线程 R23 运行中,M1 版本 Mac 具有绝对的领先优势。值得一提的是,我们正在尝试访问其他系统以收集更多数据,并希望进一步更新图表。

 

 

在浏览器基准测试中,Apple 的 CPU 占据了主导地位,但是人们怀疑这是由于 iPhone 的 CPU 本身,还是仅归因于浏览器和浏览器引擎。现在可以在 macOS 和桌面 Safari 上运行,并且能够将数据与其他 Intel Mac 系统进行比较,我们可以得出这样的结论:性能优势归功于 Apple 的 CPU 设计。

 

Web 浏览性能似乎是 Apple CPU 的头等大事,这是有道理的,因为它是移动 SoC 的杀手级工作量,也是日常生活中使用最多的工作量。

 

 

在 Geekbench 5 中,M1 再次表现出色,因为它实际上领先于我们的性能数据。即使在以 x86 兼容模式运行时,M1 与上一代高端 CPU 的顶级单线程性能相比不相伯仲,并且大大超过了 Mac mini 和 Macbook 的先前版本。

 

 

多线程性能取决于设计的内核数和功耗效率。M1 在这里输给了 2017 年的 15 英寸 Macbook Pro,它使用的 Intel i7-7820HQ 具有 4 核和 8 线程,得分翻倍。在收集数据点时,我们将添加更多的数据点。

 

M1 GPU 性能:集成王者,独立 CPU 的竞争对手

从 Intel 切换到 Apple 芯片上,重点主要应该放在 CPU 内核上,对此,我们有充分的理由,但 M1 在 GPU 方面的表示不容忽视。像他们的 CPU 内核一样,苹果已经开发了自己的 GPU 技术已有多年了,随着向 Apple Silicon 的转变,这些 GPU 设计也首次出现在 Mac 上。从性能的角度来看,这带来的盖板边比苹果的 CPU 还要大。

 

苹果公司长期以来一直以要求 GPU 性能优于一般 PC OEM 厂商而闻名。尽管许多英特尔合作伙伴都很乐意甚至在部分 15 英寸笔记本电脑中都配备了具有 Intel UHD 图形和其他基准解决方案的系统,但苹果公司选择在其 15 英寸 MacBook Pro 中交付独立的 GPU。而且,当他们无法在 13 英寸型号中安装独立 GPU 时,他们将 Intel 的高级 Iris GPU 配置与更大的 GPU 和片上 eDRAM 缓存结合使用,从而成为这些功能更强大的芯片的唯一常规客户。

 

因此,一段时间以来,苹果一直希望获得比英特尔默认提供的更好的 GPU 性能。通过切换到自己的芯片,Apple 最终可以通过建立具有他们想要的所有 GPU 性能的笔记本电脑 SoC 来赚钱。

 

 

同时,与向 Apple Silicon 过渡的 CPU 方面不同,图形编程的高级性质意味着 Apple 几乎不依赖于开发人员,就可以立即准备通用应用程序以利用 Apple 的 GPU。可以肯定的是,原生的 CPU 代码仍将产生更好的结果,因为几乎没有人听说过纯粹受 GPU 限制的工作负载,但是现有的 Metal(甚至 OpenGL)代码现在可以在 Apple 的 GPU 上运行,这意味着它立即使所有游戏和其他受 GPU 约束的工作负载受益。

 

至于 M1 SoC 的 GPU,毫不奇怪,它看起来很像 A14 的 GPU。但苹果对设计进行了一些调整,以适应 Mac 的敏感性(例如,各种 GPU 纹理和表面格式),但总的来说,差异是在 API 级别上抽象出来的。

 

总体而言,随着 M1 达到 A14 但更大,Apple 已将其 4 核 GPU 设计从该 SoC 扩展到了 M1 的 8 核。但与 CPU 时钟速度相比,我们对 GPU 时钟速度的了解甚至更少。

 

因此,目前尚不清楚苹果是否真的提高了这些速度;但是如果 GPU 时钟没有提高,我会感到有些惊讶。总体而言,按照智能手机标准,A14 的 4 核 GPU 设计已经非常强大,因此 8 核设计就更是如此。M1 的集成 GPU 不仅旨在超越 AMD 和 Intel 的集成 GPU,他们甚至还瞄准了独立 GPU。

 

 

最后,应该指出的是,Apple 为 M1 提供了两种不同的 GPU 配置。Mac Mini 和 MacBook Pro 的芯片均启用了所有 8 个 GPU 内核。同时,对于 Macbook Air,它取决于 SKU:入门级型号具有 7 核配置,而更高级别的型号具有 8 核。这意味着入门级 Air 可获得最弱的 GPU(比完整的 M1 落后约 12%)。

 

让我们开始了解 GPU 性能,让我们从 GFXBench 5.0 开始。这也是我们笔记本电脑评测的常规基准之一,因此它为我们提供了一个很好的机会,将基于 M1 的 Mac Mini 与 Mac 生态系统内外的各种其他 CPU / GPU 组合进行比较。

 

总体而言,这并不是一个完全公平的测试,因为 Mac Mini 是小型台式机,而不是笔记本电脑,但是由于 M1 是笔记本电脑专用芯片,因此至少可以使我们了解 M1 在达到最佳状态时的性能。

 

 


总体而言,M1 的 GPU 在这里非常强大。在正常和高设置下,它都远远领先于其他集成 GPU,甚至是独立的 Radeon RX 560X。只有到了 NVIDIA 的 GTX 1650 更强的 GPU 时,M1 才渐落下风。

 

顺便说一句,我还通过 Rosetta 自由运行了基准测试的 x86 版本,以了解性能损失。至少在 GFXBenchAztec Ruins 中没有。GPU 的性能与本机二进制文件和二进制转换几乎完全相同。

 

 

最后,我们以完全愚蠢的合成基准快速浏览了更广阔的领域,我们有了 3DMark Ice Storm Unlimited。由于 Apple Silicon Macs 能够运行 iPhone / iPad 应用程序,因此我们能够通过运行 iOS 版本首次在 Mac 上运行此基准测试。这是为 OpenGL ES 2.0 时代建立的非常古老的基准,但有趣的是它的性能甚至比 GFXBench 好。Mac Mini 的性能恰好足以滑过配备 GTX 1650 的笔记本电脑,尽管这不会经常发生,但它显示了 M1 的强大功能。

 

 


为苹果新 Mac 的发布而更新的另一个 GPU 基准是 BaseMark GPU。这不是我们的常规基准测试,因此我们手头上没有其他非 Mac 笔记本电脑的分数,但是它使我们可以更进一步地了解 M1 与其他 Mac GPU 产品的比较。

 

2020 年的 Mac Mini 仍然领先宇 2018 年基于 Intel 的 Mac Mini,就此而言,它也比配备 Radeon Pro 560 的 2017 年 MacBook Pro 至少快 50%。当然,较新的 MacBook Pro 会做得更好,但是请记住,这是一个集成的 GPU,整个芯片比 MacBook Pro 的 CPU 消耗的功率更少,因此不必担心独立的 GPU。

 

 


最后,将理论付诸实践,我们有了《Rise of the Tomb Raider》。该游戏于 2016 年发布,具有适当的 Mac 端口和内置基准,使我们能够在游戏场景中查看 M1 并将其与其他 Windows 笔记本电脑进行比较。诚然,这款游戏的年龄稍大一些,但其性能要求与 M1 旨在提供的性能非常匹配。最后,应该指出的是,这是 x86 游戏,尚未移植到 Arm 上,因此游戏的 CPU 端通过 Rosetta 运行。

 

在我们的 768p Value 设置下,Mac Mini 在这里提供了超过 60fps 的速度。它再次大大领先于 2018 年基于 Intel 的 Mac Mini 以及该堆栈中的所有其他集成 GPU。即使是 15 英寸的 MBP 及其 Radeon Pro 560 仍然落后于 Mac Mini 25%以上,Ryzen 笔记本电脑和 Radeon 560X 最终要与 Mac Mini 保持一致。

 

同时,通过“发烧友”设置将事情提高到 1080p 时,发现基于 M1 的 Mac Mini 仍提供不到 40fps 的速度,并且比上述 Ryzen + 560X 系统高出 20%以上。这确实使 Mini 远远落后于 GTX 1650-Rosetta 和常规 API 效率低下可能起了一定作用 - 但它表明了击败 Apple 集成 GPU 所需要的能力。Mac Mini 以 39.6fps 的速度可以在 1080p 上以良好的图像质量设置进行播放,并且相当容易地降低分辨率或图像质量以使其恢复到 60fps 以上。全部在集成 GPU 上。

 

最终,这些基准测试非常有力地证明了 M1 的集成 GPU 将不辜负苹果公司在高性能 GPU 方面的声誉。苹果公司为 Mac 推出的首个 Apple 内置 GPU 的速度明显快于我们能够使用的任何集成 GPU,并且无疑将为笔记本电脑的 GPU 性能树立新的高标准。

 

根据苹果自己的 die 照片,很明显,他们将 M1 模具的相当一部分用于 GPU 和相关的硬件上,其收益是可以与低端独立 GPU 媲美的 GPU。鉴于 M1 只是未来的基线,苹果将需要更强大的 GPU 用于高端笔记本电脑和其余台式机,看到基线的 GPU 时苹果及其开发者生态系统可以做什么将非常有趣即使是最便宜的 Mac,其性能也很高。