• 正文
  • 相关推荐
申请入驻 产业图谱

差点把它当沸腾体划走,看完何庭波演讲才懂:Logic Folding才是真比肩摩尔定律

19小时前
470
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

昨天有人问我比肩摩尔定律的韬定律是啥?我第一反应就是啥玩意能够比肩摩尔定律,这不就是自媒体+沸腾体吗?直到,我看了何庭波的演讲全文。我将收回我的第一句话。这个自媒体沸腾体的时代,众多不明真相的“爆了”,“重大突破”却掩盖了真正改变未来10年甚至20年集成电路发展的技术。看完何庭波的演讲。我认为,Logic Folding毫无疑问是逻辑设计领域的未来10年最有前景的技术。比肩FinFET,超过GAA。很巧妙,也很霸道。为什么巧妙,为什么霸道,这个我们后面挨个解释。

第一个问题,logic folding是什么?

下图就是我们常规的芯片设计剖面图:

最下面是晶体管层,中间是金属层(M1,-M10),用于布线连接晶体管。最上面是bump层,用于和基板连接或者连接别的die;

芯片的剖面的架构

集成电路几十年来一直就是这么设计的。直到有一天,聪明的你,想到了提升集成度方法。把两个硅片,其中一个倒扣在原硅片上,两个通过bump互联。我们得到了原始的logic folding。

logic folding之后的芯片剖面结构

这样好处立竿见影,在晶体管尺寸不变的情况下,晶体管的密度立马增加了一倍。懂行的同学马上就会有另外一个问题。那就是,这不就是逻辑电路(logic)的3D堆叠吗?怎么就是韬定律?怎么就比肩摩尔定律了?如果到了这个层次,说明真的行家,起码是懂集成电路的。

简单的说,我觉得说是logic folding是逻辑电路的3D堆叠也算不上大错,本质上也是这个技术路线上的产物。况且在何庭波的演讲中,她也提到了那些3D技术路线(HBM,VRAM)。例如我们大家都知道在DRAM和FLASH中,都有了3D堆叠的技术。这里面最成功的用于GPU/AI芯片的好伴侣——HBM。

如下图所示,HBM就是用了多个DRAM DIE的3D堆叠,中间通过TSV进行互联。

HBM 3D的DRAM

从这个意义上来说,Logic Folding是也是3D的。只不过是将逻辑Die也做成了多层的堆叠?也就是logic die(逻辑芯粒)的3D堆叠。这是很有突破性的,毕竟之前没有人将logic die也做了3D堆叠。

但是,真是这样吗?我的看法是,logic folding 不是logic die folding。(逻辑芯粒的折叠)虽然看起来差不多。但是,这两个有着本质的区别。

为什么有本质的区别?这个是TSMC的SoIC,可以看到,这个就是多个logic die的stack(堆叠)

logic die的stack, die与die之间还是芯片层面的。而logic folding不是logic die的stack(逻辑芯粒堆叠)而是logic circuit stack。(逻辑电路堆叠)。我知道,这句话有点绕。通俗的说,就是前者属于多个芯粒的堆叠,后者是多个逻辑单元/电路(logic unit/logic circuit)的堆叠,最后仍然属于同一个die。这么说不直观,我们来说个直观的。

这个图画的特别好,其实很多人没有注意到。上下两层晶体管之间是布线的金属层。(晶体管层+金属布线层就构成了传统的硅片)两层硅片通过HB进行键合。何庭波在演讲中提到,键合和top metal的尺寸关系要<3,top层metal布线pitch在700nm在PPT中,在HIB和top metal层的pitch尺寸关系开始时1:3,最后趋近于1:1的情况。而键合是HB pitch要<2um,实际做到的是1.5um(基本是1:2)。

PPT上也说了,后面将做到1:1也就数说HIB和top metal层的pitch尺寸关系最后趋近于1:1;这个是什么意思?也就是说,上下两层top metal层实际上可以看做是一个统一互联层。那么可以近似等效为,上下两个硅片,共享一个TOP层,如前面讲的M10。在logic folding之后。这个是两层芯片的键合方式。做过大型SOC的同学都知道。我们做大型SOC时,采用的是down-top的思路。什么down-top的设计?如果一个大型SOC中,有CPU,GPU,NPU,DSP基带DDR_if等等外设。总是先分别把每个单元,单独harden。然后再在顶层top层进行集成。这就是down-top,也就是自下而上。

SOC的设计流程。

根据这个设计,分为两步(第一步: IP harden,第二步: ip connect )在后端设计时(以10层metal为例),IP harden时,只使用了M1-M7。而top层的M8-M10是用于在TOP层的全局互联和电源。这些通常用于时钟,总线,电源等等。

既然,全局的布线用的是M8-M10.那么,通过HB 使得最上面的M10变成了一个统一的布线层。在SOC设计时,聪明的你想到了。设计者就可以将CPU,NPU,DSP放下下面的硅片上。而GPU,modem,DDR_IF放在上层的硅片上。

logic folding之后的 SOC的流程

由于,模块设计天然的高内聚,低耦合的特性。最终,模块之间就是总线,时钟,电源的互联。这些都可以放在M8,M9,M10上(传统的SOC也就是这么设计的)。由于M10是统一的布线层(通过HB连接)。那么事实上,SOC的设计就从平面布线,转到的三维布线。

这些都需要EDA工具支持,从这个角度看,华为不但搞定了制造厂,还有EDA工具也是自己要搞定的:(注意我不是一定他们是自己搞的,但一定是他们自己搞定的。)这个其实就是我开头说的,logic folding很巧妙也很霸道的地方。

巧妙的是:在SOC的芯片流程上,四两拨千金:还是原有的流程,第一步:先把模块做好,block IP harden;最大限度的复用了之前SOC设计的流程,先把模块做好,只是第二步:在top connect这个阶段,引入了3D的操作。(这个大大简化了后端的设计,要不后端的3D也是非常复杂的。)

霸道的是:通过HB的技术。实现了等效于M10布线的密度。在何庭波演示的PPT里面,也有类似的表述,就是实现总线互联的SkyBridge,以及时钟互联的SkyClock。

实现 电路之间的互联关键,总线和时钟总线,时钟,这本身就是Top Metal本身要做的工作。只不过,原来的一层top metal,现在变成了2层top metal通过HB互联。这个思想是深谙集成电路后端的设计规律的。

当面,目前是M10的互联。关键是,何庭波的演讲中提到,以后可以做到M5-M8的互联(当然包括M9),估计在下一代或者下下代实现。如果实现了M5-M8的互联。那么就会有更牛的效果。也就是,同一个block不同寄存器(register)可以放在上下不同的硅片上(substrate)。这样就能更进一步降低时延。解决芯片越做越大,在平面上时序没有办法收敛的问题。(毕竟,谁也不能传输速率高于光速。)

logic folding之后的 寄存器之间关键路径对比

上图中,如果是平面上,两个寄存器的距离决定了他们之间的延迟,也就是最高频率。这个就是频率墙。(为什么不放近一点?答案是这个牵一发而动全身,近了这个寄存器,就有更多的寄存器要更远了。应为平面上,放置多少寄存器是有数的。)而上图中,3D立体布线,就可以减少时延。你可以想象一下。十个人站一排,最远距离和十个人站两排的最远距离的不同?

这个图就能清楚解释,为什么用logic folding能够降低时延。也能解释我刚才括号中啰嗦的解释,为什么20个人站一行的情况下,为什么没有办法压缩1和20号之间的距离,因为即使把这两个人放一起,就会把别的人放在了边上,最大距离不变。到了这里,相信大家明白了都为什么是logic folding而不是logic die folding。本质上,logic folding就是通过更高密度的HB实现了类似于top metal布线的密度,从而达到了更多层硅片的互联。

所以:logic folding通过HB互联带来了,更高的密度,更低的延迟。(看,我没有提功耗,我觉得功耗是通过精简clock tree实现的,因为这种fold结构下,clock tree天生比原来要短,用了更少的buffer,这个属于副产品)到这里,我们就可以理论上解读一下PPT上的内容:传统的先进工艺主要通过缩小栅极长度和标准单元高度来提升 2D 平面的晶体管密度。而 Logic Folding 的核心思路是三维逻辑电路堆叠:

双层逻辑架构: 将原本在单一硅平面上展开的逻辑电路网络“折叠”,并堆叠成上下两层的物理结构(Dual-layer framework)。

垂直互连缩短关键路径: 在传统 2D 布局中,相距较远的逻辑门之间需要依靠漫长的片上连线(Wire)。在双层架构中,数据可以通过中间金属层(Middle Metal Layer)进行垂直迁移。这种 Z 轴的直接贯通,大幅缩短了关键路径(Critical Path)的布线长度。

降低 RC 延迟墙: 随着制程缩小,互连线变细导致的电阻(R)和电容(C)急剧上升,RC 延迟已成为限制芯片性能的核心瓶颈。Logic Folding 通过物理缩短连线距离,有效降低了信号传输的电阻和电容负载。到了这里,下面一个问题就简单了为什么这个技术可以到1.4nm。首先各位做过先进制程的同学都知道,业界说的1.4nm是等效1.4nm工艺节点。也就是每平方晶体管密度达到百万晶体管每平方毫米(MTr/mm2)就达到了相应的节点。以下是 TSMC、Intel 和 Samsung 在各大主要先进制程节点的等效逻辑密度估算:

制程节点 TSMC (台积电) Intel (英特尔) Samsung (三星)
7nm 级 N7: 91 - 96 MTr/mm² Intel 10nm (现 Intel 7): 100 - 106 MTr/mm² 7LPP: ~95 MTr/mm²
5nm 级 N5: ~171 MTr/mm² Intel 4 (原 7nm): 123 - 140 MTr/mm² 5LPE: ~127 MTr/mm²
3nm 级 N3B: ~197 MTr/mm²N3E: ~216 MTr/mm² Intel 3: 143 - 190 MTr/mm² SF3: 150 - 190 MTr/mm²
2nm 级 N2: 259 - 313 MTr/mm² Intel 20A / 18A: 185 - 238 MTr/mm² SF2: ~231 MTr/mm²
1.xnm 级 A16 (1.6nm): ~330 - 350+ MTr/mm² Intel 14A: 预计 300+ MTr/mm² SF1.4: 预计 2027 年投产 (未知)

所以,有了logic folding,就如同开了作弊器一样。别人都是单平面的,而logic folding是2层,以后可能还有4层,8层。这个晶体管密度直接就是翻倍的。搞所谓的等效密度,就是手到擒来。

所以,从华为的资料上可以看到,如果叠两层,晶体管密度直接从155M Tr/mm2直接飙升到 238MTr/mm2 。为什么不是翻倍,我怀疑把多重曝光去掉了,良率提升了,单层的逻辑密度也没那么高。主要通过logic folding实现的。后面的规划中,有4层,未来8层,总之可以值得期待。

最后一个问题。这玩意靠谱吗?是忽悠吗?看到这里还觉得是概念炒作,我也没有办法。回答是,百分之一万靠谱,没有任何的忽悠成分。为什么,因为根据芯片工业的规律,在何庭波演讲的时候,芯片已经开始了小批量量产。应该很快(半年内),我们就能看到量产的logic folding芯片,装在下一代的pura或者mate手机上,成为每个人都能获得的世界上一个采用logic folding的产品。

在这个意义上,在DRAM和FLASH之后,logic也终于进入了3D的时代。我觉得,logic folding这个思路,没有在晶体管尺寸这个维度上继续卷,而是在3D路径上撕开了一个缺口,这个思路比GAA要强不少。(当然,Finfet还是要更伟大的)在我心目中技术开创新程度(Finfet > logic Folding > GAA)GAA不是开创性的(有了finfet之后,所有人都知道未来晶体管要立起来,只是立起来是什么结构而已)。

而Finfet 和 logic Folding都是开创性的。前者为摩尔定律续了10年的命,后者开启了韬定律(当然,这个定律还要依赖未来folding的程度)。摩尔定律说,18个月晶体管密度提升一倍,时延降低一半。在发明50年后,摩尔定律已经蹒跚老矣,增加只能拼等效密度,时延也到头了。韬定律说,预计18个月(18个月是我说的,也可能长,也可能更短),logic folding的层数翻倍,晶体管密度提升一倍,时延还要降低。(有人说韬定律怎么能成为定律,其实摩尔定律也只是一个集成电路发展的总结,并不是一个严格推理公式,大家半斤八两。

如果后续,2层,4层,8层的logic folding成了,那么韬定律才成为了真正的定律。)在这个满屏“爆了”、“震撼”的自媒体时代,真正能改变未来十年格局的技术,往往被淹没在口水里。但Logic Folding不一样——它不是概念,不是PPT,它是已经量产、即将装进你下一部手机里的现实。何庭波的演讲给后摩尔时代指了一条明路:既然平面卷不动了,那就把芯片“叠”起来。从FinFET到GAA,业界在晶体管尺寸上挣扎了太久;而Logic Folding跳出这个维度,用三维互联撕开了一道口子。这不仅仅是逻辑的3D堆叠,这是逻辑设计范式的根本改变。

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录