几周前,Apple发布了iPhone 13,搭载了最新的A15芯片。但Apple对A15的宣传有点奇怪,主要是因为Apple没有将A15与A14之间进行任何代际比较,而只进行了竞品的简单对比,虽然Apple这样做并非罕见,但在今年的iPhone发布会上,这一点似乎比往常更突出。

 


我们看一下A15的几个具体细节,CPU采用了新的设计、更快的Neural Engine,新的4核/5核GPU、新的display engine和video encoder/decoder,还有新的ISP用于提高相机质量。

 

在CPU方面,改进是非常模糊的,苹果称比竞争对手快50%。而GPU性能指标也是类似的论调,4核GPU比竞争对手快30%,而5核快50%。国外媒体已对A15进行了初步测试,我们来看下A15的确切性能和效率指标。

 

 

频率提升:3.24GHz性能核、2.0GHz能效核

我们从CPU开始。新的A15采用了两种新的CPU微架构,既包括性能核,也包括能效核。关于新内核性能的前几份报告主要是围绕频率展开的,我们现在可以在测试结果中证实这一点。

 

 

 

 


与A14相比,新的A15将两个性能核的单核频率峰值提高了8%,达到了3240MHz,而上一代的频率为2998MHz。当两个性能核都处于活动状态时,它们的工作频率实际上提升了10%,与上一代的2890MHz相比,现在都以3180MHz运行。

 

总的来说,Apple在这里的频率提升是相当激进的,因为要改善频率设计是相当困难的,特别是当我们对新工艺节点方面的主要性能提升没有期待的时候。A15应该是在TSMC的N5P节点上制造的,尽管两家公司都没有真正披露设计的确切细节。TSMC宣称频率比N5增加了5%,因此Apple的频率设计如果超越了N5就意味着功耗的增加,当我们深入研究CPU的功率特性时,要记住这一点。

 

A15的能效核现在能够达到2016MHz,比A14增加了10.5%。这里的频率是独立于性能核的,就像集群中的线程数量不会影响到其他集群,反之亦然。Apple对这一代的小内核做了一些更有趣的改变,稍后会讲到。

 

巨大的cache:性能核L2达到12MB,SLC达到32MBApple在发布会上透露的一个更直接的技术细节是,与A14相比,A15现在的系统cache是A14的两倍。两年前,我们知道A13的新SLC从A12的8MB增加到16MB,这个大小在A14也维持没变。Apple声称他们已经将其增加了一倍,这意味着在A15中是32MB。

 

 

 

在对A15的延迟测试中,我们现在确实可以确认,SLC现在已经翻倍到32MB,进一步推动了内存深度达到DRAM。Apple的SLC可能是该芯片能效的一个关键因素,它能在同一硅片上进行内存访问,而不是转到速度更慢、能效更低的DRAM上。我们已经看到更多的SoC供应商采用了这些类型的末级缓存,但是在32MB的容量上,新的A15使竞争对手相形见绌,比如Snapdragon 888上的3MB SLC或Exynos 2100大约6-8MB的SLC。

 

Apple没有透露的是,性能核的L2 cache缓存也有变化,现在已经从8MB增加到12MB,增加了50%。这实际上与Apple M1的L2 cache大小相同,只是这次它只为2个性能核服务,而不是4个。访问延迟似乎已经从A14的16个周期上提高到了A15的18个周期。在性能核上,我也看到了L1速度的一些变化,因为它似乎能够对cache line行进行1个周期的访问,只要它们在同一个页面,A14上的相同类型的访问需要3个周期。

 

12MB的L2也是巨大的,与其他设计如Snapdragon 888的L3+L2的组合(4+1+3x0.5=6.5MB)相比,高出了一倍。看来Apple在今年这一代SoC中投入了大量的SRAM。

 

今年的能效核似乎没有改变cache的大小,仍然是64KB的L1D和4MB的共享L2,但我们看到Apple已经将L2 TLB(Translation Look-aside Buffer)增加到2048项,现在覆盖了32MB,可能是为了优化SLC访问延迟。有趣的是,Apple今年让能效核有更快的DRAM访问,现在的延迟约为130ns,而A14的延迟为+215ns。

 

 

CPU微架构的变化:一个缓慢的年份?

 

今年的CPU微架构没什么惊喜。今年早些时候,Arm宣布了新的Armv9 ISA,主要由新的SVE2 SIMD指令集定义,以及该公司新架构下的新Cortex系列CPU IP。早在2013年,Apple就率先在市场上推出Armv8 CPU,这是第一个具有64位功能的移动设计。鉴于这种情况,一般可能预计今年这一代产品也会引入v9,但A15似乎不是这种情况。

 

从微架构上看,A15的性能核似乎与去年的设计没太大区别。虽然还未查看设计的每个角落,但至少处理器的后端与A14性能核心相比,在吞吐量和延迟方面是相同的。

 

能效核有更多的变化,除了一些内存子系统TLB的变化外,新的能效核现在增加了一个额外的整数ALU(Arithmetic and Logic Unit),总数从之前的3个增加到4个。其实一直以来该内核无论如何都不能被称为是“小核”,而且今年似乎增长得更多。

 

Apple今年的微架构变化更加温和的可能原因是几个因素的叠加。苹果已经失去了大核的首席架构师和部分设计团队,2019年转投了Nuvia(今年早些时候被Qualcomm收购)。向Armv9的转变可能也意味着在设计上需要做更多的工作,而疫情可能也导致了这部分进展的并不顺利。我们需要再等到明年的A16,才能真正确定苹果的设计节奏是否已经放缓,或者这仅仅是一个小滑坡,又或者仅仅是在下一个微架构的更大变化之前的一个沉寂。

 

当然,这里的基调描绘了A15的CPU相当保守的改进,但从性能和效率上来看,就不是这样了。

 

 

[参考文章]

The Apple A15 SoC Performance Review: Faster & More Efficient — Andrei Frumusanu