英伟达首度承认“黄氏定律”，它会是摩尔定律之后的扛旗者吗？

在媒体层面传播几年后，“黄氏定律”这一命名终于被英伟达官方认可。

摩尔定律会失效吗？

除了 Intel 一直不肯承认外，想必其他厂商的答案都是“肯定”的。

在这一事实的前提下，他们更多的考虑的问题是：摩尔定律失效后，该如何进一步提高处理器的能效？针对这个问题，一些公司已经找到了自己的答案，比如英伟达。

过去几年来，黄仁勋一直对外表达“摩尔定律已死、新定律正在形成”，尤其是在 GPU 方面，更是预测每 10 年 GPU 性能增长 1000 倍，这一预测也被戏称为“黄氏定律”。

值得注意的是，就在正在举办的 GTC 2020 中国线上大会上，“黄氏定律”正式被官方敲章——官方活动上，英伟达首席科学家兼研究院副总裁 Bill Dally 亲口说出“黄氏定律”。

图 | 英伟达首席科学家兼研究院副总裁 Bill Dally

什么是黄氏定律？

聊黄氏定律之前，我们先了解一下被预测即将失效或“已死”的摩尔定律。

摩尔定律由 Intel 创始人之一的戈登·摩尔提出，预测集成电路上可以容纳的晶体管数目大约每经过 24 个月就会增加一倍。

之后，Intel 前 CEO 大卫·豪斯更新了另外一版说法，即每 18 个月芯片性能将提高一倍。

现在，以性能提升一倍为目标，黄仁勋也带来了自己的答案——1 年。没错，在黄仁勋认为，基于 GPU 的一倍性能提升只需要 1 年的时间，这个速度比摩尔定律至少快 1.5 倍。

当然，任何一个论点的成立没有事实依据来支撑必然是脆弱的，为此 Bill Dally 在线上演讲过程中直接以英伟达 GPU 产品为例，证明芯片产品性能的提升核心并不是制程工艺。

具体来看，Bill Dally 带来了一张图标，其中展示了从 2012 年的 Kepler，一直到今年 5 月份的 Ampere A100 等多款 GPU 产品的性能增长趋势图：

8 年时间，单芯片推理性能提高了 317 倍。“实际上，我们的推理性能每年都要增加一倍以上，部分原因在于 Tensor Core 的改进、更优化的电路设计和架构，制程技术所发挥的作用不大。”Bill Dally 表示。

他解释称，自 2012 年到 2020 年，英伟达在 GPU 产品养发上仅使用了 3 代制程工艺，分别是最开始 Kepler 架构使用的 28nm、中间时期采用的 16nm，以及最近 Ampere 架构使用的 7nm。

其中 Bill Dally 指出，在“317 倍”这一成果中，制程工艺整体上发挥的作用不到 2 成，主要功臣是“架构的改进”。

“在摩尔定律消失之后，我们还有‘黄氏定律’来不断提高计算性能，因为我们未来需要利用更高的计算性能来完成许多工作。”

众所周知，摩尔定律的关键是基于先进工艺在特定体积内放入更多的晶体管，还是容易理解的。至于黄氏定律的“架构改进”，具体怎么实现？针对这个问题，Bill Dally 也在演讲中做出了解答。

如何实现黄氏定律？

针对这个问题，Bill Dally 在演讲中用了三个项目进行解答。

首先是为了实现超高能效加速器的 MAGNet 工具。英伟达称，MAGNet 生成的 AI 推理加速器在模拟测试中，能够达到每瓦 100 tera ops 的推理能力，比目前的商用芯片高出一个数量级。

之所以能够达到这样的成效，是因为 MAGNet 采用了一系列新技术来协调并控制通过设备的信息流，最大限度地减少数据传输，毕竟数据传输正是当今芯片中最耗能的环节。整个过程中，这一研究原型均以模组化实现，因此能够灵活扩展。

第二个项目的目标则是为了以更快速的光链路取代现有系统内的电器链路。Bill Dally 表示：“我们可以将连接 GPU 的 NVLink 速度提高一倍，也许还会再翻番，但电子信号最终会消耗殆尽。”

目前，由 Bill Dally 带领的 200 人团队正在与哥伦比亚大学的研究人员密切合作，探讨如何利用电信供应商在其核心网络中所采用的技术，通过一条光纤来传输数十路信号。

据了解，这种名为“密集波分复用”的技术, 有望在仅一毫米大小的芯片上实现 Tb/s 级数据的传输，是如今互连密度的十倍以上。

值得注意的是，除了更大的吞吐量，光链路也有助于打造更为密集型的系统。针对这一点，Bill Dally 举例展示了一个未来将搭载 160 多个 GPU 的 NVIDIA DGX 系统模型。

图 | 搭载 160 多个 GPU 的 NVIDIA DGX 系统模型

想要发挥光链路的全部潜能，还需要相应的软件，这也是 Bill Dally 分享的第三个项目——全新编程系统原型 Legate。

Legate 将一种新的编程速记融入了加速软件库和高级运行时环境 Legion，借助 Legate，开发者可在任何规模的系统上运行针对单一 GPU 编写的程序——甚至适用于诸如 Selene 等搭载数千个 GPU 的巨型超级计算机。

目前，Legate 正在美国国家实验室接受测试。

黄氏定律存在“天花板”吗？

一个定律的成立与延续，必然不是一家企业单打独斗能够做到的，需要更多上下游的合作伙伴一起来激发新需求和推进创新落地。

这方面，英伟达也正以 GPU 产品为中心，搭建自己的 AI 生态圈。以英伟达初创加速计划为例，在 4 年时间内，加入该计划的企业已经超过了 7000 家，遍布全球 92 个国家，其中仅在中国，得到英伟达扶持的企业就已经超过了 800 家。

在 Bill Dally 的演讲中，我们也见到了国内 12 家代表性 AI 创企的展示，其中包括自动驾驶明星创企图森未来、文远知行、卫星图像数据分析公司大地量子等等。

以图森未来为例，早在此前的一次采访中，他们就曾对外表示，采用英伟达 AI 芯片的系统，效能每年都增加一倍。站在落地商用的角度，从企业所表述的情况来看，“黄氏定律”显然正发挥作用、成为现实。

当然，参考当前摩尔定律正在失效的情况，人们也不可避免的开始担忧，黄氏定律也会有失效的一天吗？

不同于制程工艺的肉眼可见，架构的改进相对来讲是较为虚化的。针对这个问题，曾有人给出了一个“10 年内”的可能答案。对于这个答案的准确与否，我们也不过多评判，不管“天花板”存在与否，我们目前可以确定的是，从过去 8 年的表现来判断，在未来一段十日内，黄氏定律仍然会继续发挥它“性能一年翻一倍”的优势，这一定律带来的最终成果还是很值得期待的。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
DSPIC33EP512MU814-I/PH	1	Microchip Technology Inc	16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144	ECAD模型下载ECAD模型	$13.09	查看
STM32F417VGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC, HW crypto	ECAD模型下载ECAD模型	$16.9	查看
USB2514B-AEZC	1	Microchip Technology Inc	UNIVERSAL SERIAL BUS CONTROLLER	ECAD模型下载ECAD模型	$2.5	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

DSPIC33EP512MU814-I/PH

Microchip Technology Inc

16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144

$13.09

查看

STM32F417VGT6

STMicroelectronics

High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC, HW crypto

$16.9

查看

USB2514B-AEZC

Microchip Technology Inc

UNIVERSAL SERIAL BUS CONTROLLER

$2.5

查看

英伟达首度承认“黄氏定律”，它会是摩尔定律之后的扛旗者吗？

什么是黄氏定律？

如何实现黄氏定律？

黄氏定律存在“天花板”吗？

推荐器件

相关推荐

电子产业图谱