差点把它当沸腾体划走，看完何庭波演讲才懂：Logic Folding才是真比肩摩尔定律

昨天有人问我比肩摩尔定律的韬定律是啥？我第一反应就是啥玩意能够比肩摩尔定律，这不就是自媒体+沸腾体吗？直到，我看了何庭波的演讲全文。我将收回我的第一句话。这个自媒体沸腾体的时代，众多不明真相的“爆了”，“重大突破”却掩盖了真正改变未来10年甚至20年集成电路发展的技术。看完何庭波的演讲。我认为，Logic Folding毫无疑问是逻辑设计领域的未来10年最有前景的技术。比肩FinFET，超过GAA。很巧妙，也很霸道。为什么巧妙，为什么霸道，这个我们后面挨个解释。

第一个问题，logic folding是什么？

下图就是我们常规的芯片设计剖面图：

最下面是晶体管层，中间是金属层（M1,-M10），用于布线连接晶体管。最上面是bump层，用于和基板连接或者连接别的die；

芯片的剖面的架构

集成电路几十年来一直就是这么设计的。直到有一天，聪明的你，想到了提升集成度方法。把两个硅片，其中一个倒扣在原硅片上，两个通过bump互联。我们得到了原始的logic folding。

logic folding之后的芯片剖面结构

这样好处立竿见影，在晶体管尺寸不变的情况下，晶体管的密度立马增加了一倍。懂行的同学马上就会有另外一个问题。那就是，这不就是逻辑电路（logic）的3D堆叠吗？怎么就是韬定律？怎么就比肩摩尔定律了？如果到了这个层次，说明真的行家，起码是懂集成电路的。

简单的说，我觉得说是logic folding是逻辑电路的3D堆叠也算不上大错，本质上也是这个技术路线上的产物。况且在何庭波的演讲中，她也提到了那些3D技术路线（HBM，VRAM）。例如我们大家都知道在DRAM和FLASH中，都有了3D堆叠的技术。这里面最成功的用于GPU/AI芯片的好伴侣——HBM。

如下图所示，HBM就是用了多个DRAM DIE的3D堆叠，中间通过TSV进行互联。

HBM 3D的DRAM

从这个意义上来说，Logic Folding是也是3D的。只不过是将逻辑Die也做成了多层的堆叠？也就是logic die（逻辑芯粒）的3D堆叠。这是很有突破性的，毕竟之前没有人将logic die也做了3D堆叠。

但是，真是这样吗？我的看法是，logic folding 不是logic die folding。（逻辑芯粒的折叠）虽然看起来差不多。但是，这两个有着本质的区别。

为什么有本质的区别？这个是TSMC的SoIC，可以看到，这个就是多个logic die的stack（堆叠）

logic die的stack， die与die之间还是芯片层面的。而logic folding不是logic die的stack（逻辑芯粒堆叠）而是logic circuit stack。（逻辑电路堆叠）。我知道，这句话有点绕。通俗的说，就是前者属于多个芯粒的堆叠，后者是多个逻辑单元/电路（logic unit/logic circuit）的堆叠，最后仍然属于同一个die。这么说不直观，我们来说个直观的。

这个图画的特别好，其实很多人没有注意到。上下两层晶体管之间是布线的金属层。（晶体管层+金属布线层就构成了传统的硅片）两层硅片通过HB进行键合。何庭波在演讲中提到，键合和top metal的尺寸关系要<3，top层metal布线pitch在700nm在PPT中，在HIB和top metal层的pitch尺寸关系开始时1：3，最后趋近于1:1的情况。而键合是HB pitch要<2um,实际做到的是1.5um（基本是1:2）。

PPT上也说了，后面将做到1:1也就数说HIB和top metal层的pitch尺寸关系最后趋近于1:1；这个是什么意思？也就是说，上下两层top metal层实际上可以看做是一个统一互联层。那么可以近似等效为，上下两个硅片，共享一个TOP层，如前面讲的M10。在logic folding之后。这个是两层芯片的键合方式。做过大型SOC的同学都知道。我们做大型SOC时，采用的是down-top的思路。什么down-top的设计？如果一个大型SOC中，有CPU，GPU，NPU，DSP，基带，DDR_if等等外设。总是先分别把每个单元，单独harden。然后再在顶层top层进行集成。这就是down-top，也就是自下而上。

SOC的设计流程。

根据这个设计，分为两步（第一步： IP harden，第二步： ip connect ）在后端设计时（以10层metal为例），IP harden时，只使用了M1-M7。而top层的M8-M10是用于在TOP层的全局互联和电源。这些通常用于时钟，总线，电源等等。

既然，全局的布线用的是M8-M10.那么，通过HB 使得最上面的M10变成了一个统一的布线层。在SOC设计时，聪明的你想到了。设计者就可以将CPU，NPU，DSP放下下面的硅片上。而GPU，modem，DDR_IF放在上层的硅片上。

logic folding之后的 SOC的流程

由于，模块设计天然的高内聚，低耦合的特性。最终，模块之间就是总线，时钟，电源的互联。这些都可以放在M8，M9，M10上（传统的SOC也就是这么设计的）。由于M10是统一的布线层（通过HB连接）。那么事实上，SOC的设计就从平面布线，转到的三维布线。

这些都需要EDA工具支持，从这个角度看，华为不但搞定了制造厂，还有EDA工具也是自己要搞定的：（注意我不是一定他们是自己搞的，但一定是他们自己搞定的。）这个其实就是我开头说的，logic folding很巧妙也很霸道的地方。

巧妙的是：在SOC的芯片流程上，四两拨千金：还是原有的流程，第一步：先把模块做好，block IP harden；最大限度的复用了之前SOC设计的流程，先把模块做好，只是第二步：在top connect这个阶段，引入了3D的操作。（这个大大简化了后端的设计，要不后端的3D也是非常复杂的。）

霸道的是：通过HB的技术。实现了等效于M10布线的密度。在何庭波演示的PPT里面，也有类似的表述，就是实现总线互联的SkyBridge，以及时钟互联的SkyClock。

实现电路之间的互联关键，总线和时钟总线，时钟，这本身就是Top Metal本身要做的工作。只不过，原来的一层top metal，现在变成了2层top metal通过HB互联。这个思想是深谙集成电路后端的设计规律的。

当面，目前是M10的互联。关键是，何庭波的演讲中提到，以后可以做到M5-M8的互联（当然包括M9），估计在下一代或者下下代实现。如果实现了M5-M8的互联。那么就会有更牛的效果。也就是，同一个block不同寄存器（register）可以放在上下不同的硅片上（substrate）。这样就能更进一步降低时延。解决芯片越做越大，在平面上时序没有办法收敛的问题。（毕竟，谁也不能传输速率高于光速。）

logic folding之后的寄存器之间关键路径对比

上图中，如果是平面上，两个寄存器的距离决定了他们之间的延迟，也就是最高频率。这个就是频率墙。（为什么不放近一点？答案是这个牵一发而动全身，近了这个寄存器，就有更多的寄存器要更远了。应为平面上，放置多少寄存器是有数的。）而上图中，3D立体布线，就可以减少时延。你可以想象一下。十个人站一排，最远距离和十个人站两排的最远距离的不同？

这个图就能清楚解释，为什么用logic folding能够降低时延。也能解释我刚才括号中啰嗦的解释，为什么20个人站一行的情况下，为什么没有办法压缩1和20号之间的距离，因为即使把这两个人放一起，就会把别的人放在了边上，最大距离不变。到了这里，相信大家明白了都为什么是logic folding而不是logic die folding。本质上，logic folding就是通过更高密度的HB实现了类似于top metal布线的密度，从而达到了更多层硅片的互联。

所以：logic folding通过HB互联带来了，更高的密度，更低的延迟。（看，我没有提功耗，我觉得功耗是通过精简clock tree实现的，因为这种fold结构下，clock tree天生比原来要短，用了更少的buffer，这个属于副产品）到这里，我们就可以理论上解读一下PPT上的内容：传统的先进工艺主要通过缩小栅极长度和标准单元高度来提升 2D 平面的晶体管密度。而 Logic Folding 的核心思路是三维逻辑电路堆叠：

双层逻辑架构：将原本在单一硅平面上展开的逻辑电路网络“折叠”，并堆叠成上下两层的物理结构（Dual-layer framework）。

垂直互连缩短关键路径：在传统 2D 布局中，相距较远的逻辑门之间需要依靠漫长的片上连线（Wire）。在双层架构中，数据可以通过中间金属层（Middle Metal Layer）进行垂直迁移。这种 Z 轴的直接贯通，大幅缩短了关键路径（Critical Path）的布线长度。

降低 RC 延迟墙：随着制程缩小，互连线变细导致的电阻（R）和电容（C）急剧上升，RC 延迟已成为限制芯片性能的核心瓶颈。Logic Folding 通过物理缩短连线距离，有效降低了信号传输的电阻和电容负载。到了这里，下面一个问题就简单了为什么这个技术可以到1.4nm。首先各位做过先进制程的同学都知道，业界说的1.4nm是等效1.4nm工艺节点。也就是每平方晶体管密度达到百万晶体管每平方毫米（MTr/mm2）就达到了相应的节点。以下是 TSMC、Intel 和 Samsung 在各大主要先进制程节点的等效逻辑密度估算：

制程节点	TSMC (台积电)	Intel (英特尔)	Samsung (三星)
7nm 级	N7: 91 - 96 MTr/mm²	Intel 10nm (现 Intel 7): 100 - 106 MTr/mm²	7LPP: ~95 MTr/mm²
5nm 级	N5: ~171 MTr/mm²	Intel 4 (原 7nm): 123 - 140 MTr/mm²	5LPE: ~127 MTr/mm²
3nm 级	N3B: ~197 MTr/mm²N3E: ~216 MTr/mm²	Intel 3: 143 - 190 MTr/mm²	SF3: 150 - 190 MTr/mm²
2nm 级	N2: 259 - 313 MTr/mm²	Intel 20A / 18A: 185 - 238 MTr/mm²	SF2: ~231 MTr/mm²
1.xnm 级	A16 (1.6nm): ~330 - 350+ MTr/mm²	Intel 14A: 预计 300+ MTr/mm²	SF1.4: 预计 2027 年投产 (未知)

所以，有了logic folding，就如同开了作弊器一样。别人都是单平面的，而logic folding是2层，以后可能还有4层，8层。这个晶体管密度直接就是翻倍的。搞所谓的等效密度，就是手到擒来。

所以，从华为的资料上可以看到，如果叠两层，晶体管密度直接从155M Tr/mm2直接飙升到 238MTr/mm2 。为什么不是翻倍，我怀疑把多重曝光去掉了，良率提升了，单层的逻辑密度也没那么高。主要通过logic folding实现的。后面的规划中，有4层，未来8层，总之可以值得期待。

最后一个问题。这玩意靠谱吗？是忽悠吗？看到这里还觉得是概念炒作，我也没有办法。回答是，百分之一万靠谱，没有任何的忽悠成分。为什么，因为根据芯片工业的规律，在何庭波演讲的时候，芯片已经开始了小批量量产。应该很快（半年内），我们就能看到量产的logic folding芯片，装在下一代的pura或者mate手机上，成为每个人都能获得的世界上一个采用logic folding的产品。

在这个意义上，在DRAM和FLASH之后，logic也终于进入了3D的时代。我觉得，logic folding这个思路，没有在晶体管尺寸这个维度上继续卷，而是在3D路径上撕开了一个缺口，这个思路比GAA要强不少。（当然，Finfet还是要更伟大的）在我心目中技术开创新程度（Finfet > logic Folding > GAA）GAA不是开创性的（有了finfet之后，所有人都知道未来晶体管要立起来，只是立起来是什么结构而已）。

而Finfet 和 logic Folding都是开创性的。前者为摩尔定律续了10年的命，后者开启了韬定律（当然，这个定律还要依赖未来folding的程度）。摩尔定律说，18个月晶体管密度提升一倍，时延降低一半。在发明50年后，摩尔定律已经蹒跚老矣，增加只能拼等效密度，时延也到头了。韬定律说，预计18个月（18个月是我说的，也可能长，也可能更短），logic folding的层数翻倍，晶体管密度提升一倍，时延还要降低。（有人说韬定律怎么能成为定律，其实摩尔定律也只是一个集成电路发展的总结，并不是一个严格推理公式，大家半斤八两。

如果后续，2层，4层，8层的logic folding成了，那么韬定律才成为了真正的定律。）在这个满屏“爆了”、“震撼”的自媒体时代，真正能改变未来十年格局的技术，往往被淹没在口水里。但Logic Folding不一样——它不是概念，不是PPT，它是已经量产、即将装进你下一部手机里的现实。何庭波的演讲给后摩尔时代指了一条明路：既然平面卷不动了，那就把芯片“叠”起来。从FinFET到GAA，业界在晶体管尺寸上挣扎了太久；而Logic Folding跳出这个维度，用三维互联撕开了一道口子。这不仅仅是逻辑的3D堆叠，这是逻辑设计范式的根本改变。

差点把它当沸腾体划走，看完何庭波演讲才懂：Logic Folding才是真比肩摩尔定律

第一个问题，logic folding是什么？

相关推荐