何为晶圆级处理器？其性能有多大提升？

用整个硅片来制造处理器似乎是一个奇怪的想法，但一项新的研究表明，晶圆级芯片可以比同等的多芯片模块 MCM 的性能好一个数量级，同时提供更好的能效。

晶圆级集成（WSI）的概念相当简单：不是制造一个装满芯片的晶圆，而是将它们分开，然后将它们重新连接在一起，放在多芯片模块或封装的印刷电路板（PCB）上，晶圆本身可以作为“超级芯片”的衬底，将各个元件连接在一起就位。从理论上讲，这应该可以降低成本（消除单个芯片的封装）并提高性能（通过接近组件可以实现更快的数据速率）。

WSI 还可以构建更密集的设备。在一个电路板中，有 90％甚至更多的空间用于非模组件。据英特尔称，芯片到芯片通信的 I/O 电路已占据某些处理器面积的 25％以上。对于晶圆级设备，互连只会占用不到 10％的面积。

制造晶圆级芯片的想法已经存在一段时间了，其中最著名的尝试之一是在 1980 年，当时 Gene Amdahl 试图构建一个大型机晶圆级计算机芯片，作为他新成立的创业公司 Trilogy Systems 的基础。与 20 世纪 70 年代和 80 年代 WSI 的其他失败的尝试一样，Amdahl 失败的主要原因是当时的半导体制造产量不足以生产足够数量的可用晶圆。

从那时起，制造业有了显著进步，新技术的出现为 WSI 提供了一些有趣的可能性。特别是，研究人员指出，现在可以将处理器，存储器模块（包括 3D DRAM 堆栈）甚至外围设备的高产量裸片连接到一块晶圆上，并使用一种新的晶圆级互连技术将它们连接起来，这种技术被称为硅互连结构(Si-IF)。

今天讨论的这项研究是由来自加利福尼亚大学洛杉矶分校（UCLA）和伊利诺伊大学厄巴纳 - 香槟分校（UICU）的一组研究人员进行，在题为“构建晶片级处理器 - GPU 案例研究”的论文中进行了描述。

在加州大学洛杉矶分校开发的 Si-IF 技术尽管不如片上连接好，但也提供了比封装级互联更好的带宽，延迟和能源效率。Si-IF 基材与铜柱 I/O 引脚和模间连接集成，成为晶圆片的高性能数据管道。实质上，Si-IF 用硅衬底代替 PCB，并允许模具直接连接到晶圆上。

目前市面上有很多商用的多模互连技术，如台积电的基板晶圆芯片(CoWoS)和英特尔的嵌入式多模互连桥(EMIB)，但据研究人员称，这些技术的可扩展性有限。目前最大的 CoWoS 设备只有一个 GPU 和四个内存堆栈，而 EMIB 技术只能连接大约 5 到 10 个芯片。

为了展示技术的成熟程度，研究人员构建了一个 100mm 的原型晶圆，其中 10 个 4mm²的模具连接到 Si-IF 基片上，并连接 40000 个铜 I/O 引脚。在测试模具之间的电气连接时，他们确定所有支柱引脚和管芯间链路工作正常。研究人员在报告中写道：“我们在这种原型上观察到的高产量，再加上之前报道的用于在 Si-IF 上连接模具的高产量，证明了制造晶圆级系统的技术准备已经就绪。” 注意，这里的模具是单独“预制”的，它们没有直接蚀刻在晶圆上。

该研究的其余部分涉及将“假设的”晶圆级 GPU 与各种配置的单芯片和多芯片 GPU（在这种情况下，每个封装四个 GPU 模块）进行比较。研究人员选择 GPU 作为案例研究的基础，因为在 GPU 上运行的应用程序在本质上是高度并行的，因此 GPU 是展示多模集成优势的良好架构。为了测量应用程序的性能，研究人员选择了 7 种不同的基准测试，包括物理模拟，机器学习，线性代数，医学成像，图形着色和社交媒体。

与 40-MCM 的扩展配置（10 个 4-GPU 封装电路板）相比，40-GPU 的芯片平均运行速度提高了 5.2 倍，最高可达 18.9 倍。24-GPU 晶圆比竞争对手（6 块 4-GPU 封装板）平均高出 2.3 倍，最高为 10.9 倍。研究人员将这种加速归因于 Si-IF 在 MCM 配置下比车载网络更高的数据带宽。

同样的，基于能量延迟功率（EDP）指标，与 MCM 晶圆相比，假设的 GPU 晶圆表现出更好运行基准的能量分布。仿真结果表明，24-GPU 和 40-GPU 晶圆的节能效果分别提高了 9.3 倍和 22.5 倍。研究人员认为，在晶圆级硬件上可以获得更好的结果，大大缩短了执行时间，并提高了晶圆级通信的能效。

他们设计的晶圆 GPU 以相对适中的时钟速度运行：24-GPU 版本为 575 MHz，40-GPU 版本为 408 MHz。研究人员声称，如果可以使用更高的频率，它们的性能优势也会增加，尽管提升幅度不大：1 GHz 24-GPU 晶圆的性能将比扩展后的 24-MCM 晶圆多出 7％。

本文只提到了 WSI 的一个关键优势，即每个多 GPU 晶圆在软件上都是一个超大尺寸的 GPU。即使性能和能源优势非常有限，但是程序员生产力的提高本身可能会使这种技术对开发人员具有极大的吸引力。

WSI 是否能够从大学实验室中脱颖而出还有待观察，商业可行性通常是一件棘手的事情，即使是那些似乎即将实现产品化的技术。如果这些研究人员真的相信 waferscale 已准备好进入黄金时段，那么可能就会出现一个附带结果。

与非网编译内容，未经许可，不得转载！

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MC9S12A128CPVE	1	Rochester Electronics LLC	16-BIT, FLASH, 25MHz, MICROCONTROLLER, PQFP112, LEAD FREE, LQFP-112		$22.47	查看
ATXMEGA256D3-AUR	1	Microchip Technology Inc	IC MCU 8BIT 256KB FLASH 64TQFP		$6.07	查看
STM32H743ZIT6	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals	ECAD模型下载ECAD模型	$22.21	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MC9S12A128CPVE

Rochester Electronics LLC

16-BIT, FLASH, 25MHz, MICROCONTROLLER, PQFP112, LEAD FREE, LQFP-112

$22.47

查看

ATXMEGA256D3-AUR

Microchip Technology Inc

IC MCU 8BIT 256KB FLASH 64TQFP

$6.07

查看

STM32H743ZIT6

STMicroelectronics

High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

$22.21

查看

何为晶圆级处理器？其性能有多大提升？

推荐器件

相关推荐

电子产业图谱