芯片者得天下。我们可以把这句话再延伸一下说,得 AI 芯片者得未来的天下。

 

对于智能终端厂商来说,能够自研 SoC 芯片似乎才是顶级实力的象征。众所周知,盘踞全球智能手机前三甲的三星、华为、苹果,无一例外都拥有自研的 SoC 芯片。

 

(2020 智能手机芯片跑分数据 TOP10)

 

现在,经历了多年的辅助 AI 芯片的经验积累之后,谷歌终于要入场智能终端的核心硬件——SoC 处理器芯片了。

 

据外媒 Axois 报告,谷歌在自研处理器方面取得了显著进步,最近其自主研发的 SoC 芯片已经成功流片。

 

据悉,该芯片是谷歌与三星联合开发,采用 5nm 工艺制造,“2+2+4”三架构设计的 8 核 CPU 集群,以及搭载全新 ARM 公版架构的 GPU,同时在 ISP 和 NPU 上集成了谷歌 Visual Core AI 视觉处理器。这让谷歌的终端芯片能够更好地支持 AI 技术,比如大幅提升谷歌助手的交互体验。

 

在上市计划上,谷歌的这一 SoC 处理器芯片预计将于率先部署在下一代 Pixel 手机以及谷歌笔记本 Chromebook 中。

 

谷歌的这一举动被视为对苹果自研处理器模式的靠拢,从“原生系统+最主流旗舰芯片”变为“原生系统+自研芯片”,谷歌的用意肯定不仅是想摆脱高通芯片的钳制,更重要的是想通过自研芯片实现更好的软硬件结合,使得安卓系统在自家硬件上发挥更大的性能优势。

 

我们其实知道,自研芯片并不能在硬件利润上带给谷歌更多的价值,其中最有价值的地方在于将谷歌 AI 上面的优势通过软硬件的结合,在智能终端上得到更好的应用。

 

我们也都知道,谷歌在 AI 芯片上入局最早,实力强劲。然而 AI 芯片的技术有多强,AI 技术和芯片研发有哪些相互促进的关系?相信很多人还是不明就里的,而这正是我们接下来要去深入探究的。

 

从云端到终边端,谷歌 AI 芯片的进阶之路

 

 

在谷歌的 TPU(Tensor Processing Unit,张量处理单元)处理器推出之前,大部分的机器学习以及图像处理算法一直都是跑在 GPU 与 FPGA 这两种通用芯片上面的。而提出了深度学习开源框架 TensorFlow 的谷歌则专门做出这样一款为 TensorFlow 算法设计的专用芯片。

 

TPU 就这样诞生了,然而让 TPU 的声名远播却是在 AlphaGo 大战李世石的人机围棋赛。据说,当时谷歌为 TPU 其实下了另一盘大棋的。因为在挑战李世石之前,AlphaGo 是跑在 1202 个 CPU 和 176 个 GPU 上面与棋手樊麾比赛的。这让看过对弈过程的李世石很有信心。然而在比赛前几个月,AlphaGo 的硬件平台换上了 TPU,这让 AlphaGo 的实力很快得到成长,后面的对战局势让李世石就吃尽了苦头。

 

(谷歌 TPU 芯片)

 

TPU 是一种专用集成电路(ASIC),作为专门在谷歌云使用的 AI 芯片,其使命就在于加速谷歌人工智能落地的速度。在 2017 年谷歌公布的第二代 TPU 上,其浮点运算能力高达每秒 180 万亿次,既可以用于推理,也可以用做训练。而到了 2018 年的 TPU3.0 版本,其计算性能相比 TPU 2.0 提升八倍,可达每秒 1000 万亿次浮点计算。

 

此后,谷歌的 AI 布局逐渐走向边缘侧。在 2017 年的谷歌云服务年会上,正式发布其边缘技术,并推出了 Google Edge TPU。

 

Edge TPU 是谷歌专为在边缘运行 TensorFlow Lite ML 模型而设计的 ASIC 芯片。Edge TPU 可用于越来越多的工业使用场景,如预测性维护、异常检测、机器视觉、机器人学、语音识别,也可以应用于本地部署、医疗保健、零售、智能空间、交通运输等各个领域。

 

Edge TPU 体型小、能耗低,因此只负责 AI 加速判别、加速推算,仅为加速器、辅助处理器的角色,可以在边缘部署高精度 AI,是对 CPU、GPU、FPGA 以及其他在边缘运行 AI 的 ASIC 解决方案的补充。

 

谷歌还在去年推出了基于 Edge TPU 芯片的等一系列开发硬件,以及本地化 AI 平台 Coral,为边缘侧提供优质、易部署的 AI 解决方案。

 

尽管 TPU 和 Edge TPU 主要是对深度学习起到运算推理加速的辅助服务器,但我们仍然能够看到谷歌在 AI 芯片上的布局野心。从云端,到边缘端和手机智能终端,正是理解谷歌 AI 芯片的内在逻辑。

(Pixel Visual Core)

 

从 2017 年开始,谷歌就在智能手机上陆续推出了定制的摄像头芯片“Pixel Visual Core”和“Pixel Neuro Core”,并用在了 Pixel 2、Pixel 3 和 Pixel 4 上。

 

Pixel Visual Core,是一种图像处理单元(IPU),也是谷歌自研的第一款移动芯片,专门用于加速相机的 HDR+计算,其使用了机器学习和计算摄影,可以智能地修补照片不完美的部分,也使图像处理更加流畅和快速。这也是很多人说的谷歌手机的照片不是拍出来的,而是算出来的原因。

 

而到了去年,谷歌在 Pixel 4 上使用了 Pixel Neural Core 专用处理器来代替 Pixel VIsual Core。神经网络算法可以使谷歌手机的相机镜头识别所拍摄的物体,然后既可以将数据交给图像处理算法去优化,也可以将数据输出给谷歌助手进行识别。同时,Pixel Neural Core 也可以让谷歌助手进行更复杂的人机对话,还有进行离线的语音文本翻译。

 

如果谷歌不是有着 TensorFlow、Halide 以及编译器等 AI 算法和开发软件,谷歌的 AI 芯片的很多设计显然是无法发挥太大作用的。软硬件结合,才让谷歌的芯片设计走得更为彻底和硬气。

 

软硬兼融,谷歌 AI 芯片快速迭代的硬气底色

 

 

在互联网公司的造芯赛道上,谷歌无疑是跑在最前面的一家。

 

据报道,早在 2006 年,谷歌就考虑在其数据中心部署 GPU 或者 FPGA,或专用集成电路。而由于当时没有多少要在专门硬件上运行的应用,因此使用谷歌大型数据中心的富余计算能力就能满足算力要求。

 

而一直到 2013 年,谷歌已经开始推出基于 DNN 的语音识别的语音搜索技术,用户的需求使得谷歌数据中心的计算需求增加了一倍,这让基于 CPU 的计算变得特别昂贵。因此,谷歌计划使用现成的 GPU 用于模型训练,而快速开发一款专用的集成电路芯片用于推理。

 

 

后来我们知道这一专用定制芯片就是 TPU,而这一快速开发的周期仅仅是 15 个月。基于软件造芯,谷歌并非独一家,但相比亚马逊、Facebook 来说,谷歌则一直有持续的芯片产品推出。谷歌能够如此快速且高频地进行“硬件”输出,那自然是有其“硬气”的原因的。

 

首先一定是战略上的重视。此前谷歌 CEO 皮猜就曾强调,谷歌从来不是为硬件而硬件,背后的逻辑一定是 AI、软件和硬件一体,真正解决问题要靠这三位一体。

 

其次就是人才的重视。以当前谷歌这一消费端的 SoC 芯片为例。此前这一项目对外界来说早已是公开的“秘密”。从 2017 年底,谷歌就开始从苹果、高通、英伟达等公司高薪挖“角”,其中包括苹果 A 系列处理器著名的研发工程师 John Bruno。但直到去年 2 月,谷歌才正式宣布在印度班加罗尔的组建了一支“gChips”芯片设计团队,致力于谷歌智能手机和数据中心芯片业务,未来还会在该地办新的半导体工厂。消费级芯片似乎只差临门一脚了。

 

当然,最重要的因素还在于谷歌在 AI 芯片上的创新优势。我们知道,AI 芯片的研发,本身是一个周期长且耗费巨大资金的项目。芯片设计到成品的周期可能赶不上 AI 算法的发展进程。如何实现 AI 芯片的硬件设计与算法、软件的平衡,成为谷歌设计芯片的关键优势。

 

而谷歌提出的解决方案则更值得称道,那就是用 AI 算法设计 AI 芯片。

 

具体来说,AI 芯片设计存在着以下难题。首先是,3D 芯片的放置,在受限区域中跨层级配置数百到上千的组件,工程师们需要手动设计来进行配置,并通过自动化软件进行模拟和性能验证,这通常需要花费大量时间。其次是,芯片的设计架构赶不上机器学习算法或神经网络架构的发展速度,导致这些算法架构在现有的 AI 加速器上效果不佳。另外,尽管芯片的布局规划的设计进程在加快,但在包括芯片功耗、计算性能和面积等多个目标的优化能力上仍然存在限制。

 

为应对这些挑战,谷歌的高级研究科学家 Mirhoseini 和团队研究人员 Anna Goldie 提出了一种神经网络,即将芯片布局建模转化为强化学习问题。

 

与典型的深度学习不同,强化学习系统不会使用大量标记的数据进行训练。相反,神经网络会边做边学,并在成功时根据有效信号调整网络中的参数。在这种情况下,有效信号成为降低功率、改善性能和减少面积组合的替代指标。结果就是,系统执行的设计越多,其效果就会越好。

 

在对芯片设计进行了足够长时间的学习之后,它可以在不到 24 小时的时间内为谷歌 Tensor 处理单元完成设计,而且在功耗、性能、面积都超过了人类专家数周的设计成果。研究人员说,这一系统还向人类同行教授了一些新技巧。

 

最终,谷歌团队希望像这一 AI 系统能达到“在同一时间段内设计更多的芯片,以及运行速度更快,功耗更低,制造成本更低,外形体积更小的芯片”这一目标。

 

意在未来,谷歌 SoC 芯片集成的 AI 野心

 

 

这一次谷歌自研的终端处理器 SoC 芯片,其本质上还是谷歌 AI 芯片的延伸。

 

细心的人们应该已经发现,这次的 SoC 芯片并不是完全出自谷歌研发团队,而是选择了与三星展开了合作。从媒体的曝光看,谷歌这次的手机主控会采用 5nm 制程、Cortex-A78 大核、核心数多达 20 个的新 GPU,而这些恰好就是三星 Exynos 1000 的特征。所以,这款三星堆料的芯片,最主要的“谷歌元素”就是在 ISP 和 NPU 上应用了谷歌自家设计的 AI 芯片。

 

(谷歌 Pixel5 谍照)

 

这一选择自然有着谷歌充分的考虑和一些明显的优势,但也存在着一些不利的影响。

 

最直观的好处就是加快了谷歌的手机端 SoC 芯片的研制速度,降低对高通处理器的依赖,并可以迅速应用到下一代谷歌 pixel 手机上。

 

另外一个好处是,谷歌主导的芯片设计将使得谷歌像苹果一样建成自己的封闭系统。谷歌最硬核之处就在于拥有庞大的数据和 AI 算法。伴随着应用层面不断丰富的数据体验和 AI 体验,比如在飞行模式下实现语音实时转录文字的功能,手机的硬件性能以及系统的兼容支撑就可能成为智能手机的性能天花板。如何在安卓系统中将处理器性能发挥到最大,可能没有谁比谷歌更清楚了。

 

毕竟前面几款谷歌 Pixel 手机的市场表现都不温不火,尽管其在拍摄算法和 AI 助手等应用上面极具优势,但在终端的外观设计、屏幕、摄像头、电池等硬件配置上一直存在“短板”,难以和全球几家主流终端玩家的旗舰机型媲美。想必应用了最新一代的 SoC 芯片的新款 Pixel 机型的定价也将非常“高端”,但在硬件上的“偏科”,可能仍然会影响其整体的市场表现。

 

此外,由于这是一款全新的“非主流”芯片,也会对游戏、软件开发者而言,不再成为“软件开发样板机”的首选测试机型。

 

无论如何,这一集成了深度学习性能的 SoC 芯片,将为谷歌争夺未来的 AI 市场做好准备,帮助谷歌、在移动终端上将语音识别、图像处理等 AI 应用的性能发挥到极致,提早一步占领真正的智能终端的领导者位置。

 

 

无论怎样,谷歌的造“芯”举动,一定会对上游芯片厂商以及智能终端厂商带来正面冲击。如果通过“Whitechapel”证明了谷歌的“造芯”战略的成功,那么谷歌距离苹果的差距还有多少呢?

 

自研芯片、安卓系统叠加最新 AI 计算能力,如果再补足硬件配置的短板,那么谷歌极有可能打造一个安卓生态圈的软硬件完美适配的闭环系统。

 

最后,我们发现一个比较令人疑惑的细节。此次芯片的代号为“Whitechapel”,名为“白教堂”。如果熟悉英美剧的读者们,可能会看过一部名为《白教堂血案》的英剧。如果不是非要过度解读的话,我们可以理解为某位重要研发者喜欢这部惊悚悬疑剧,所以以此来命名。如果非要“过度”解读一下的话,谷歌可能是想用一个百年未解的“谜团”来预示着智能终端的 AI 应用的纷争的开场。

 

当然,这个答案也许还得等谷歌的新的 Pixel 手机上市才能揭晓。