无人再提通用计算

摩尔定律为计算机行业提供了一段显着的增长和稳定的时期，晶体管密度以预测的节奏加倍，不仅推动了五十年的处理器性能提升，而且推动了通用计算模型的兴起。然而，根据麻省理工学院和亚琛大学的研究人员的论文，摩尔定律带来的这一切都将结束。

麻省理工学院计算机科学与人工智能实验室的 Neil Thompson、哈佛大学的客座教授以及亚琛工业大学的研究生 Svenja Spanuth 讨论说，摩尔定律的失效，以及深度学习和加密货币挖掘等新应用，正在推动行业远离通用微处理器，转向有利于专用微处理器的模式。“通用计算机芯片的兴起非常快，因此他们同样会很快衰落”他们这样争辩道。

正如他们所指出的那样，通用计算并不总是一般需求，在超级计算的早期阶段，来自 Cray 等公司的定制矢量架构主导了 HPC 行业。目前，NEC 构建的矢量系统仍然存在这种情况。但由于摩尔定律在过去几十年中不断提高晶体管性价比，经济力量的重心基本偏向通用处理器。

这主要也是因为开发和制造定制芯片的成本在 3000 万到 8000 万美元之间，因此，对有高性能微处理器需求的用户而言，采用专用架构的好处也仅仅是九牛一毛，因为定制化的解决方案带来的初始性能提升，通过缩小通用芯片中的晶体管就能达到，同时，晶体管缩小所产生的成本可以在数百万个处理器中摊销。

但摩尔定律所带来的计算经济学正在发生变化。近年来，随着底层的半导体材料达到物理极限，缩小晶体管变得更加昂贵。作者发现，在过去的 25 年中，建立一个领先的晶圆厂的成本每年增长 11％。2017 年，半导体行业协会估计建造一座新工厂需要花费约 70 亿美元。这不仅增加了芯片制造商的固定成本，半导体制造商的数量也从 2002 年的 25 家减少到今天的四家：英特尔、台积电、三星和格罗方德。

该团队还重点介绍了美国劳工统计局（BLS）的一份报告，该报告试图量化每美元的微处理器性能，根据这一指标，BLS 发现微处理器的改进率从 2000 - 2004 年的 48％下降到 2004 - 2008 年的 29％，而 2008 - 2013 年每年仅为 8％。

所有这些都从根本上改变了缩小晶体管的成本和效益，正如作者所指出的，由于建造和运营新工厂的费用不断上升，英特尔的固定成本有史以来第一次超过其可变成本。更令人不安的是，像三星和高通这样的公司现在认为，在最新工艺节点上制造的晶体管的成本正在增加，这进一步阻碍了对更小尺寸的追求。这种想法可能是格罗方德最近放弃其 7nm 技术计划决定背后的原因。

不仅仅是摩尔定律恶化的问题，专用处理器的另一个驱动因素是新应用程序无法适用于通用计算芯片。对于初学者来说，你拥有移动设备和物联网（IoT）这样的平台，这些平台在能源效率和成本方面要求很高，并且需要大量部署，即使有相对强大的摩尔定律的支持，也需要定制芯片，而具有更严格要求的低容量应用，例如军用和航空硬件，也需要特殊用途设计的支持。但作者认为，通过深度学习实现了行业真正的分水岭，深度学习是一种跨越几乎所有计算环境的应用程序类别 - 移动，桌面，嵌入式，云计算和超级计算。

深度学习及其首选硬件平台 GPU，就是计算从通用处理器走向专用处理器的最明显的例子。实际上半专业计算架构的 GPU 已经成为训练深度神经网络的平台，因为它们能够比 CPU 更有效地进行数据并行处理。作者指出，尽管 GPU 也被用于加速科学和工程应用，但它的深度学习将可以被进一步专业化地应用于大批量应用中。当然，这里要排除 GPU 在桌面游戏中已经拥有大量应用，因为桌面游戏是 GPU 最初设计的目的。

但对于深度学习，GPU 可能只是入门级的工具，英特尔，富士通和十几家创业公司已经有了人工智能和深度学习芯片，谷歌自己的 Tensor 处理单元（TPU）是专门用于训练和使用神经网络的，目前已进入第三次迭代。“创建一个定制的处理器对谷歌而言非常昂贵，专家估计固定成本为数千万美元，”作者写道，“然而，好处也很大 - 他们声称他们的业绩增长相当于摩尔定律的七年 - 并且无需基础设施成本使其更加值得去投入。”

Thompson 和 Spanuth 还指出，专用处理器越来越多地用于超级计算，他们提及 2018 年 11 月的超级计算机 TOP500 排名，这表明专业处理器（主要是 Nvidia GPU）而不是 CPU 是第一次负责大部分加速性能。作者还对列表进行了回归分析，结果显示具有专用处理器的超级计算机“每瓦特可以执行的计算次数几乎是仅使用通用处理器的计算速度的五倍”，这一结果非常高具有统计意义。“

Thompson 和 Spanuth 提供了一个数学模型，用于确定专业化的成本 / 收益，同时考虑到开发定制芯片的固定成本，芯片数量，定制实施提供的加速以及处理器改进的速度。由于后者与摩尔定律联系在一起，因此速度放缓意味着即使预期的加速比较适中，专用芯片的合理化也会变得更加容易。

“因此，对于许多（但不是全部）应用，现在获得专用处理器在经济上是可行的 - 至少在硬件方面，”作者声称，“另一种看待这种情况的方法是考虑到在 2000 - 2004 年期间，市场规模约为 83,000 台处理器的应用程序需要专业化提供 100 倍的加速才值得，而在 2008 - 2013 年，这样的处理器只需要 2 倍的加速。“

Thompson 和 Spanuth 还为专用处理器纳入了重新定位应用软件的额外费用，他们认为每行代码的价格为 11 美元。这在一定程度上使模型复杂化，因为必须考虑代码库的大小，这并容易追踪。在这里，他们还指出，一旦代码重新开发完成，它往往会阻止代码库移回通用平台。

最重要的是，摩尔定律的缓慢消亡正在揭示过去的创新，市场扩张和再投资的良性循环。随着越来越多的专业芯片开始蚕食计算机行业，这个周期变得支离破碎。由于较少用户采用最新的制造节点，为晶圆厂融资变得更加困难，进一步减缓了技术进步。这会将计算机行业分割成专门领域。

其中一些领域，如深度学习，由于其规模和对专用硬件的适用性，将处于快车道。然而，像数据库处理这样的领域虽然被广泛使用，可能会成为“死胡同”，因为这种类型的交易计算并不适合专用芯片，另外，像气候模型等其他较小的领域，因为太小而无法保证自己定制的硬件，尽管它们可以从中受益。

作者预计，云计算将在某种程度上通过为较小和较少照顾的社区提供各种基础设施来削弱这些差异的影响。越来越多的可用性更专业的云资源，如 GPU，FPGA，以及谷歌的 TPU，能够创造一个更加平等的竞争环境。

当然，这些都不意味着 CPU 甚至 GPU 都是失败的，尽管作者没有深入研究这一方面，但在未来很可能将专用、半专业和通用计算引擎集成在同一芯片或处理器封装中，一些芯片制造商已经开始了对这方面的研究。

例如，Nvidia 在其 Volta 一代 GPU 中采用了 Tensor Cores，这是其专门用于深度学习的专用电路，这样 Nvidia 就能够提供一个既能满足传统超级计算模拟又能深度学习应用的平台。同样，CPU 正在与专用逻辑块集成，用于加密 / 解密、图形加速、信号处理，当然还有深度学习，我们期待这种情况会越来越多的出现。

完整论文请查看：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3287769

与非网编译内容，未经许可，不得转载！

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MK70FN1M0VMJ15	1	Freescale Semiconductor	Kinetis K 32-bit MCU, ARM Cortex-M4 core, 1MB Flash, 150MHz, Graphics LCD, MAPBGA 256	ECAD模型下载ECAD模型	$18.16	查看
MCF52259CAG80	1	Freescale Semiconductor	32-BIT, FLASH, 80MHz, RISC MICROCONTROLLER, PQFP144, 20 X 20 MM, ROHS COMPLIANT, LQFP-144	ECAD模型下载ECAD模型	$17.28	查看
DS3231SN#	1	Maxim Integrated Products	Real Time Clock, Non-Volatile, 1 Timer(s), CMOS, PDSO16, 0.300 INCH, SOIC-16		$11.21	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MK70FN1M0VMJ15

Freescale Semiconductor

Kinetis K 32-bit MCU, ARM Cortex-M4 core, 1MB Flash, 150MHz, Graphics LCD, MAPBGA 256