何为晶圆级处理器?其性能有多大提升?

2019-02-20 15:04:30 来源:EEFOCUS
标签:

用整个硅片来制造处理器似乎是一个奇怪的想法,但一项新的研究表明,晶圆级芯片可以比同等的多芯片模块MCM的性能好一个数量级,同时提供更好的能效。

 

晶圆级集成(WSI)的概念相当简单:不是制造一个装满芯片的晶圆,而是将它们分开,然后将它们重新连接在一起,放在多芯片模块或封装的印刷电路板(PCB)上,晶圆本身可以作为“超级芯片”的衬底,将各个元件连接在一起就位。从理论上讲,这应该可以降低成本(消除单个芯片的封装)并提高性能(通过接近组件可以实现更快的数据速率)。

 

 

WSI还可以构建更密集的设备。在一个电路板中,有90%甚至更多的空间用于非模组件。据英特尔称,芯片到芯片通信的I/O电路已占据某些处理器面积的25%以上。对于晶圆级设备,互连只会占用不到10%的面积。

 

制造晶圆级芯片的想法已经存在一段时间了,其中最著名的尝试之一是在1980年,当时Gene Amdahl试图构建一个大型机晶圆级计算机芯片,作为他新成立的创业公司Trilogy Systems的基础。与20世纪70年代和80年代WSI的其他失败的尝试一样,Amdahl失败的主要原因是当时的半导体制造产量不足以生产足够数量的可用晶圆。

 

从那时起,制造业有了显著进步,新技术的出现为WSI提供了一些有趣的可能性。特别是,研究人员指出,现在可以将处理器,存储器模块(包括3D DRAM堆栈)甚至外围设备的高产量裸片连接到一块晶圆上,并使用一种新的晶圆级互连技术将它们连接起来,这种技术被称为硅互连结构(Si-IF)。

 

今天讨论的这项研究是由来自加利福尼亚大学洛杉矶分校(UCLA)和伊利诺伊大学厄巴纳 - 香槟分校(UICU)的一组研究人员进行,在题为“构建晶片级处理器 - GPU案例研究”的论文中进行了描述。

 

在加州大学洛杉矶分校开发的Si-IF技术尽管不如片上连接好,但也提供了比封装级互联更好的带宽,延迟和能源效率。Si-IF基材与铜柱I/O引脚和模间连接集成,成为晶圆片的高性能数据管道。实质上,Si-IF用硅衬底代替PCB,并允许模具直接连接到晶圆上。

 


目前市面上有很多商用的多模互连技术,如台积电的基板晶圆芯片(CoWoS)和英特尔的嵌入式多模互连桥(EMIB),但据研究人员称,这些技术的可扩展性有限。目前最大的CoWoS设备只有一个GPU和四个内存堆栈,而EMIB技术只能连接大约5到10个芯片。

 

为了展示技术的成熟程度,研究人员构建了一个100mm的原型晶圆,其中10个4mm²的模具连接到Si-IF基片上,并连接40000个铜I/O引脚。在测试模具之间的电气连接时,他们确定所有支柱引脚和管芯间链路工作正常。研究人员在报告中写道:“我们在这种原型上观察到的高产量,再加上之前报道的用于在Si-IF上连接模具的高产量,证明了制造晶圆级系统的技术准备已经就绪。” 注意,这里的模具是单独“预制”的,它们没有直接蚀刻在晶圆上。

 

该研究的其余部分涉及将“假设的”晶圆级GPU与各种配置的单芯片和多芯片GPU(在这种情况下,每个封装四个GPU模块)进行比较。研究人员选择GPU作为案例研究的基础,因为在GPU上运行的应用程序在本质上是高度并行的,因此GPU是展示多模集成优势的良好架构。为了测量应用程序的性能,研究人员选择了7种不同的基准测试,包括物理模拟,机器学习,线性代数,医学成像,图形着色和社交媒体。


与40-MCM的扩展配置(10个4-GPU封装电路板)相比,40-GPU的芯片平均运行速度提高了5.2倍,最高可达18.9倍。24-GPU晶圆比竞争对手(6块4-GPU封装板)平均高出2.3倍,最高为10.9倍。研究人员将这种加速归因于Si-IF在MCM配置下比车载网络更高的数据带宽。

 

同样的,基于能量延迟功率(EDP)指标,与MCM晶圆相比,假设的GPU晶圆表现出更好运行基准的能量分布。仿真结果表明,24-GPU和40-GPU晶圆的节能效果分别提高了9.3倍和22.5倍。研究人员认为,在晶圆级硬件上可以获得更好的结果,大大缩短了执行时间,并提高了晶圆级通信的能效。

 

他们设计的晶圆GPU以相对适中的时钟速度运行:24-GPU版本为575 MHz,40-GPU版本为408 MHz。研究人员声称,如果可以使用更高的频率,它们的性能优势也会增加,尽管提升幅度不大:1 GHz 24-GPU晶圆的性能将比扩展后的24-MCM晶圆多出7%。

 

本文只提到了WSI的一个关键优势,即每个多GPU晶圆在软件上都是一个超大尺寸的GPU。即使性能和能源优势非常有限,但是程序员生产力的提高本身可能会使这种技术对开发人员具有极大的吸引力。

 

WSI是否能够从大学实验室中脱颖而出还有待观察,商业可行性通常是一件棘手的事情,即使是那些似乎即将实现产品化的技术。如果这些研究人员真的相信waferscale已准备好进入黄金时段,那么可能就会出现一个附带结果。

 

 

与非网编译内容,未经许可,不得转载!

 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

作者简介
与非网 记者
与非网 记者

电子行业垂直媒体--与非网记者一枚,愿从海量行业资讯中淘得几粒金沙,与你分享!

继续阅读
详细对比 CPU 与 GPU,谁能担得了机器深度学习的重任?
详细对比 CPU 与 GPU,谁能担得了机器深度学习的重任?

CPU是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调能力强,计算能力则位于其次。而GPU相当于一个接受CPU调度的“拥有大量计算能力”的员工。

AMD准备好与英伟达展开GPU终极之战
AMD准备好与英伟达展开GPU终极之战

还有一个GPU市场,多年来AMD一直落后于英伟达。不过,就像它在CPU市场对英特尔打了个漂亮的翻身仗一样,AMD这次做足了准备,要改变GPU市场的格局。

数据中心:英伟达的下一个战场

如果你仅仅因为AMD准备明年推出“Navi”GPU,以及英特尔也在开发明年交付的Xe GPU,就期待英伟达很快就会开始谈论它未来用于特斯拉加速计算的“Einstein”GPU,那么你可能得再等一段时间了。英伟达仍有资金推出基于“Turing”和“Volta”架构的特斯拉T4和V100加速器。

经历辉煌也感受动荡,苹果 GPU 王者能否归来?

在过去几年,自从苹果公司宣布逐步停止使用Imagination Technologies的移动GPU 技术之后,业内很多人曾对Imagination的前景堪忧。在GPU领域,现在的手机厂商自研已经成为潮流,包括华为和三星都在GPU方面相关规划,那就意味着留给传统GPU厂商的手机客户会越来越少,且还有arm mali这样的强势竞争对手在。

耕升G魂 RTX 2080 Super OC显卡评测:非公显卡,性能、散热却不输公版
耕升G魂 RTX 2080 Super OC显卡评测:非公显卡,性能、散热却不输公版

7月2日,NVIDIA RTX 2060/2070 Super的诞生在一定程度上成功打压AMD新生的7nm显卡,在性能相比前代提升了15~20%的同时,还维持价格不变,也刺激了消费市场的热情。

更多资讯
用MCU的PWM产生负电压的教程
用MCU的PWM产生负电压的教程

我们应该知道,有一种开关电源是通过PWM波来实现的,但你知道通过PWM波也能输出负电压吗?

台积电谈论摩尔定律如何继续生存?

在日前于美国举办的Hotchips上,台积电负责新技术研究的Phillip Wong博士做了一个题为《What will the next node offer us》的演讲,他就摩尔定律未来的看法、台积电研究和产品组合的最新发展等方面,阐述了他的观点。

被误会的鸿蒙

华为发布了鸿蒙操作系统,业界的争论也播散开来。智能相对论ihahe先不讲技术,只讲1、为什么要做鸿蒙;2、鸿蒙生态是什么;3、鸿蒙如何变现。

银的散热效果这么好,为何 CPU 看不上它?
银的散热效果这么好,为何 CPU 看不上它?

DIY玩家都知道CPU的顶盖为铜材质的金属,而为了增加硬度和耐腐蚀性等,CPU制造商会在铜的表面镀一层镍,所以我们看到CPU顶盖不是铜的颜色,同时为了让提高CPU的焊接紧密度和芯片安全性,又要添加阻挡层和一层浸润贵金属,一般为钛、镍、钒和金,这就是一块CPU顶盖的所有材质了。

敢挑战 Intel,AMD 到底行不行?

在任何芯片设计中,天使和魔鬼都在细节之中。AMD过去对皓龙处理器(Opteron)做出的一些架构选择让它备受煎熬,关于代码如何利用硬件的假设并没有按计划实现。老款皓龙处理器(Opteron)处理器最初的设计非常出色,但公司似乎有意避免在后续产品上犯同样的错误,比如第二代霄龙(Epyc)服务器芯片。