台积电资深科技院士、研究发展/设计暨技术平台副总裁鲁立忠在VLSI 2026大会主旨报告《Advancing Package and System Integration for Next-Generation AI推进下一代人工智能的先进封装与系统集成》中表示,先进的2.5D和3.5D封装已成为下一代人工智能(AI)系统扩展的关键技术,以满足苛刻的性能、能效和带宽要求。从2D片上系统到3.5D集成的架构范式转变,给先进封装技术和系统级设计带来了深刻挑战。
现代应用,尤其是大型语言模型(LLM)领域的复杂性和计算需求日益增加,迫切需要创新方法来克服传统单片集成电路(IC)的局限性。实现更高性能和能效的关键瓶颈在于数据移动。与芯片内数据移动相比,分立IC芯片之间的数据传输会显著增加功耗,占用更大的硅片面积,并引入大量的传播延迟。当数据在单独的IC封装之间传输时,这种开销会进一步加剧,其功耗可能比封装内小芯片到小芯片的通信高出几个数量级。
大型语言模型(LLM)的训练和推理工作流程中的许多阶段本质上是数据密集型的,经常需要在高带宽存储器(HBM)模块和片上系统(SoC)之间传输大量的模型参数。因此,整体系统功耗和延迟往往由这些数据移动操作所主导。一种非常有效的策略是扩大封装尺寸,在单个集成封装内集成更多数量的HBM和小芯片,从而减少芯片间数据移动的开销,进而提高整个系统的功耗和性能。
然而,随着封装内集成片上系统(SoC)数量的增加,数据在多个SoC及其互连的二维(2D)芯片间链路中传输所带来的功耗和延迟损失可能会变得相当可观。这种不断上升的开销凸显了向三维(3D)芯片堆叠架构过渡的必要性,这种架构提供了更直接、更短的数据路径,以减少通信开销。这些技术的输入/输出(IO)密度比传统的2D芯片间链路高出几个数量级,并允许3D链路以2D链路数据速率的一小部分运行,同时仍然在带宽密度上实现了一个数量级的提升。此外,这些低数据速率3D链路所需的电路系统要紧凑得多,且能效更高。
尽管性能上有所提升,但芯片的垂直堆叠本质上会增加集成系统的单位面积功率密度和热阻。因此,一种全面的热感知设计方法对于确保集成电路的工作温度保持在可接受的范围内至关重要,从而同时满足性能和可靠性方面的约束。
本报告阐述了推动人工智能性能显著提升和快速增长的三大主要驱动力:(1)持续的半导体技术进步,实现了计算能力和带宽的显著扩展;(2)关键的热管理、电源供应和带宽优化技术,用于稳健的系统设计;(3)关键的3D集成电路(3DIC)设计方法创新和生态系统合作,促进了复杂系统的实现。所以本报告的三大部分内容是:
首先,介绍台积电(TSMC)的3DFabric®高性能计算(HPC)/人工智能(AI)集成平台,详细阐述其先进的硅技术、3D硅堆叠和2.5D先进封装解决方案,将深入探讨计算扩展,重点介绍集成技术的进步及其对晶体管密度的影响。
接下来的讨论将涉及关键挑战,包括热设计和技术协同优化,并详细阐述电源网络优化技术,将重点关注带宽扩展,研究横向扩展、纵向扩展和向外扩展的方法。
最后,将探讨生态系统合作在3D集成电路(3DIC)设计自动化和AI代理应用中的关键作用,并在结尾部分提出未来发展方向。
半导体技术的发展一直以摩尔定律为指导,不断追求更高的性能和晶体管密度。为了克服单个芯片的掩模版尺寸限制,2.5D/3D异构集成技术可以将多个芯片集成在一起,集成晶体管总数可望突破万亿级。
台积电(TSMC)的3DFabric®代表了一种全面的先进异构集成技术,旨在将半导体缩放扩展到传统单片极限之外。该框架由三大技术类别组成:首先,是先进的硅技术,它代表着持续向更精细的晶体管几何结构发展的趋势。其次,是3D硅堆叠技术,系统级集成芯片(TSMC-SoIC®),它允许芯片垂直堆叠,从而实现超高密度和短互连长度。第三,是先进的封装解决方案,它提供了基于2.5D中介层的解决方案:集成扇出(InFO®)和晶圆上芯片(CoWoS®),它们在共用的中介层上连接逻辑芯片和HBM,以提升性能;而TSMC-SoW™,即晶圆上系统技术,旨在直接在晶圆上进行系统级集成。这些技术共同实现了前所未有的集成水平,对于支持高性能计算(HPC)和人工智能(AI)应用持续的性能需求至关重要。
对于高带宽存储器(HBM)集成,管理内存高速数据流的基础芯片已从传统的DRAM技术转变为台积电(TSMC)的先进逻辑技术。为了进一步提升集成度和性能,CoWoS®再分布层(RDL)中介层嵌入了本地硅互连(LSI)等嵌入式组件,作为小芯片之间的高速高吞吐量通信路径。此外,还嵌入了集成电压调节器(IVR)和增强型深沟槽电容器(eDTC),以提高能效。该平台将台积电COUPE™(紧凑型通用光子引擎)与电子集成电路(EIC)和光子集成电路(PIC)相结合,后者将电信号转换为光信号,通过光纤阵列单元(FAU)进行传输。SoIC®技术有助于实现顶部和底部芯片的垂直堆叠,从而大幅提高晶体管密度。
台积电的CoWoS®作为基础平台,专为人工智能系统集成的持续扩展而设计。该平台已从3.3微米光刻尺寸扩展到5.5微米光刻尺寸,并有望进一步扩展到9.5微米和14微米光刻尺寸甚至更小。这反映了在单一封装内可实现的集成密度和功能复杂性的不断提高,以实现最终性能。
台积电的SoIC®技术代表了3D集成领域的重大进步,实现了垂直小芯片堆叠,并具有极精细且直接的芯片间连接(Pitch可达4.5µm)。与传统平面布局相比,这种垂直堆叠技术可在相同占用空间内使计算逻辑量翻倍,并显著提高单位面积的计算密度。对于以日益庞大的模型和海量数据集为特征的现代人工智能(AI)工作负载而言,这种增强的计算密度带来了巨大优势,使得更多处理单元能够更紧密地集成在一起,从而缩短数据必须传输的物理距离,进而最大限度地降低延迟和功耗。
计算能力扩展(以每个封装中集成的晶体管数量来量化)预计在2024年至2029年间将增长超过48倍。这一激进的扩展得益于从N7到A14的先进节点技术的进步,以及SoIC®的采用和CoWoS®集成能力从3.3个光罩尺寸扩展到超过14个光罩尺寸。这些进步使得单个封装内能够集成数量从2个增加到24个的SoC,从而推动计算能力的显著增长。
从2024年到2029年,高带宽内存(HBM)的带宽预计将增长34倍。这一迅猛增长得益于HBM标准从HBM3向HBM5E的演进、每HBM的输入/输出(I/O)数量从1024增加到2048,同时每个I/O的比特率大幅提升了5.7倍,以及集成HBM的数量从8个增加到24个。与此同时,HBM逻辑基础芯片技术也从DRAM工艺升级到了N3P。这些因素共同推动了超带宽扩展,这对于未来几代高性能计算(HPC)和人工智能(AI)应用至关重要。
带宽扩展是提升计算性能的关键推动因素,通常分为三种不同的方法:向内扩展(scale-in)、向上扩展(scale-up)和向外扩展(scale-out)。向内扩展是指增加小芯片之间的带宽密度并降低延迟,从而在较短距离内实现数据传输效率最大化。向上扩展是指在多小芯片封装内增强带宽,促进逻辑和内存等不同组件之间的高速通信。相反,向外扩展则满足不同封装、系统或机架之间高带宽和节能数据传输的需求,克服了传统电气互连在较长距离上的局限性。
台积电(TSMC)的先进封装和集成技术为这些扩展维度提供了全面的解决方案组合。对于向内扩展,TSMC的SoIC®技术通过直接且精细的连接实现了多个芯片的垂直堆叠,显著提高了带宽密度并降低了单个封装内芯片间通信的延迟。同时,TSMC的CoWoS®技术通过不断缩小凸块间距来促进向上扩展,从而在2.5D中介层上实现逻辑和HBM等组件之间更多高速I/O连接,进而提升封装内的聚合带宽。
在2.5D集成中,通过将µBump间距从45µm缩小到35µm,并将工艺技术从N3P升级到A14甚至更高,带宽密度提高了1.3倍,能耗降低到0.7倍,从而使带宽密度与能耗比提高了1.8倍。在3D芯片堆叠中,更为显著的是,利用精细至4.5µm的键合间距,与9µm的N7参考相比,带宽密度提高了4倍,能耗降低到0.37倍。这意味着带宽密度与能耗比显著提高了10.8倍,这对于实现先进人工智能通信所必需的高速且节能的数据传输至关重要。
通用小芯片互连快速(UCIe)标准提供了对人工智能(AI)发展至关重要的激进带宽扩展能力。台积电已在CoWoS®先进封装平台上验证了32Gb/s的UCIe性能,并在重布线层(RDL)转接板上展示了出色的功耗和延迟特性。通过eDTC选项,可以进一步提升电源完整性。此外,我们还研究了64Gb/s下UCIe 3.0的信号完整性。采用45微米凸点间距和有效的信号屏蔽策略,眼图展示了64Gb/s操作的稳健性能。35微米凸点间距选项通过缩短走线长度、减少知识产权(IP)面积和提高能效,进一步提升了互连性能。我们的研究结果证实,即使在35微米凸点间距下,64Gbps的信号完整性也足够。
最后,在横向扩展方面,台积电的COUPE™技术将光收发器直接集成到封装中,实现了高带宽且节能的光通信。TSMC-SoIC®、CoWoS®和TSMC-COUPE™的协同应用提供了一种前所未有的分层带宽扩展方法,这对于满足未来高性能计算、人工智能和数据中心应用不断增长的数据移动需求至关重要(图10)。
通过全面的工艺和设计协同优化,COUPE数据速率已超过200 Gb/s。这一成就得益于对光子集成电路微环调制器(MRM)结的优化、EIC驱动器与PIC MRM阻抗的协同设计,以及电感峰化的采用,这些因素共同使整体系统带宽提升了1.8倍。
每个封装中晶体管数量的显著增加直接导致了功耗的升高。得益于计算机架构创新带来的大规模并行性,以及技术创新带来的SoIC® 3D堆叠技术,封装总功耗急剧增长。为了维持人工智能的功耗扩展,需要采用功率传输解决方案和热设计与技术协同优化(DTCO)。
提高功率效率的驱动力要求降低电源电压。随着功率密度的提高和Vdd的降低,两者结合导致需要向封装提供的电流大幅增加。这种升高的电流密度给电源传输网络(PDN)设计带来了三个主要挑战。
A. 电源完整性 由于PDN的寄生电阻和由PDN的寄生电感引起的交流电压降落,集成电路(IC)对直流电压降落越来越敏感。这可能会阻止计算内核同时开启,尤其是在大型语言模型(LLM)训练和推理过程中常见的苛刻且不稳定的工作负载特性下。
B. 效率降低 通过PDN路径的I2R损耗随电流呈二次方增长,导致整体功率效率显著降低。
C. 可靠性问题 电流幅度可能变得如此之大,以至于引发可靠性问题,如电迁移,尤其是在球栅阵列(BGA)凸点等关键互连点处。
在低至中等的电流密度(最高达4 A/mm²)下,封装和印刷电路板(PCB)技术的进步可以控制封装网络(PDN)损耗和电迁移效应,此时优化的主要重点转向减轻交流(AC)下垂。台积电(TSMC)提供了两种不同类型的片上和封装内去耦电容(decap)来解决这一问题。片上高密度金属-绝缘体-金属(MIM)去耦电容的电容密度高达500 nF/mm²,能有效抑制有源器件产生的高频电源噪声(通常>100 MHz)。相反,封装内电介质传输线电容(eDTC)的电容密度高达2500 nF/mm²,可提供低阻抗电流源,以满足中频(10-100 MHz)下的突发电流需求。
另一方面,在极高电流密度(超过4 A/mm²)下,当无源解决方案无法控制I²R损耗和电迁移时,必须提高集成电路(IC)封装的输入电压以显著降低电流。这就需要集成如下图所示的输入电压调节器(IVR)。此外,台积电的晶圆上电感器(OWL)技术能够将电感器直接集成在晶圆上,该技术可与电源管理IC芯片结合,创建降压型转换器。这些转换器可将封装的输入电压从核心电压(例如,~0.7V)提高到大于1.8V,从而大幅降低电流密度(超过2.5倍)和直流(DC)损耗(超过6倍)。OWL技术支持快速切换频率,并有助于实现高闭环带宽的电压调节器。这反过来又显著改善了交流下垂特性。最终,输入电压调节器为解决高功率密度条件下上述所有三个电源传输挑战提供了全面的解决方案。
SoIC®技术带来的晶体管数量翻倍直接导致功率密度提高,需要采用先进的解决方案来缓解。在封装技术方面,无盖封装配置可直接将热量从载体传递到散热器,绕过传统盖子的热阻。此外,采用高导热系数载体可增强封装内的热传导性,从而带来更多改进。同时,设计层面的优化也发挥着关键作用。热点扩散成为最具影响力的设计准则,可有效将集中产生的热量扩散到更广泛的区域。虚设键合和虚设过孔插入可创建额外的热路径,有助于从顶部和底部芯片更高效地散热。总体而言,这些协同的封装和设计创新对于缓解日益密集架构中固有的热挑战至关重要,从而确保在苛刻的工作负载下保持性能和可靠性。
在SoIC®垂直堆叠中,由于计算SoC、散热器、DRAM堆叠以及逻辑基础芯片本身之间复杂的热耦合,逻辑基础芯片与计算芯片混合封装(HBM)的热管理面临重大挑战。缓解热问题的关键策略包括:改善散热器和热界面材料(TIM)的热阻,降低SoC和逻辑基础芯片的功耗,以及在设计阶段实施热感知布局规划。这些综合方法对于确保高功率密度3DIC封装的性能和可靠性至关重要。
3DIC设计的固有复杂性要求采用协作生态系统的方法来实现设计自动化。没有任何单一实体拥有全面的专业知识或资源来应对从高级物理验证到新型架构探索等一系列挑战。因此,电子设计自动化(EDA)供应商、代工厂、知识产权(IP)提供商和系统集成商之间的紧密合作至关重要。这种协同作用促进了标准化方法、集成工具和稳健设计流程的发展,共同实现了高效可靠的解决方案。这种合作对于充分发挥3DIC技术在先进计算系统中的潜力至关重要。
为了简化复杂的3D集成电路(3DIC)设计流程,台积电(TSMC)牵头开发了3Dblox,这是一种模块化分层语言,旨在自动化3DIC设计流程。3Dblox于2022年推出,已成为3DIC设计的全球标准,解决了3D堆叠表示的复杂性。该语言将3D组件模块化为小芯片、接口和连接,为逻辑连接和物理连接提供了一种统一的语言。这种标准化实现了自顶向下的设计方法,促进了小芯片的重用,增强了电子设计自动化(EDA)工具之间的互操作性,并显著提高了设计生产力。该语言已作为P3537 3Dblox——小芯片连接和物理特性描述语言捐赠给IEEE标准协会,目前正在委员会审查中。
借助能够捕捉完整3D上下文的3Dblox语言,台积电与电子设计自动化(EDA)合作伙伴共同打造了一系列实用的生产力解决方案:1)3D集成电路堆叠中的凸块分配因尺寸、间距和映射模式的不同而变得复杂,再加上小芯片翻转或旋转等操作,使得问题更加棘手。为此,台积电与EDA合作伙伴共同开发了一种新颖的“compile_bumps”方案。该方案利用预定义的3D凸块模式,使流程自动化,能够根据布局变化自动计算和动态重新分配凸块坐标,从而显著简化这一复杂的设计阶段。2)3D集成电路需要采用整体方法来保护静电放电(ESD)。传统的单个小芯片验证可能会导致设计过于悲观;然而,考虑到网表拓扑结构的真实3D ESD分析,可以识别堆叠中的低电阻路径,从而实现更优化的保护。台积电与EDA合作伙伴在解决所有主要3D ESD类型方面取得了重大进展,减少了不必要的设计裕度。3D天线和设计规则检查(DRC)的类似应用也受益于3Dblox定义的上下文。3)人工智能(AI)正在被用于3D集成电路(3DIC)中的全局资源优化。EDA工具利用AI引擎在红外(IR)约束下智能规划关键的3D对象(如电源/地网、凸块、硅通孔)。这种优化促进了分而治之的策略,将3D设计简化为可管理的2D实现任务。4)先进封装的基板设计面临着高密度逃逸布线、精细线宽和间距、差分对布线、镀通孔(PTH)规划和长度匹配等特殊要求的重大挑战。台积电与Cadence Allegro路由器共同开发,在大型工业设计中实现了与人工设计相差不到10%的人为质量布线,并且与专业人工设计相比,布线时间减少了两个数量级。这代表着自动化基板布线能力取得了重大进步。
代理式人工智能(Agentic AI)的集成正在改变3DIC设计在设计流程各个阶段的面貌。例如,在高速接口通道优化方面,人工智能被用于关键设计优化,通过智能搜索和空间剪枝来确定最佳通道轮廓。其次,人工智能助手在工作流程开发中发挥着越来越重要的作用,例如运行集编码辅助工具,它有助于自动化脚本生成和优化。电子设计自动化(EDA)知识库便于访问积累的大量设计知识。针对特定的设计和验证任务,正在开发人工智能代理,如物理设计代理,以实现最佳的功耗、性能和面积。设计规则检查(DRC)代理有助于加快验证周期。台积电(TSMC)与EDA合作伙伴携手,采取战略性举措,推动3DIC设计方法向更加自主和高效的方向发展,并致力于最终提升设计质量和缩短上市时间。
结论与未来方向
半导体集成从单片集成向2.5D/3D异构集成的演进,代表着先进计算系统设计与制造方式的根本性转变。在材料、工艺和封装技术(如台积电3DFabric®)持续创新的推动下,半导体行业正成功克服传统的缩放挑战。这些先进的集成方法对于维持性能和晶体管密度提升的历史轨迹至关重要,为未来几代高性能计算和人工智能应用铺平了道路,使在可预见的未来内将数万亿个晶体管集成到单个系统中成为可能。
358
