最近,chiplet 这个概念热了起来,从 DARPA 的 CHIPS 项目到 Intel 的 Foveros,都把 chiplet 看成是未来芯片的重要基础技术。简单来说,chiplet 技术就是像搭积木一样,把一些预先生产好的实现特定功能的芯片裸片(die)通过先进的集成技术(比如 3D integration)集成封装在一起形成一个系统芯片。而这些基本的裸片就是 chiplet。从这个意义上来说,chiplet 就是一个新的 IP 重用模式。未来,以 chiplet 模式集成的芯片会是一个“超级”异构系统,可以为 AI 计算带来更多的灵活性和新的机会。
 
chiplet 模式简介
chiplet 的概念其实很简单,就是硅片级别的重用。设计一个系统级芯片,以前的方法是从不同的 IP 供应商购买一些 IP,软核(代码)或硬核(版图),结合自研的模块,集成为一个 SoC,然后在某个芯片工艺节点上完成芯片设计和生产的完整流程。未来,对于某些 IP,你可能不需要自己做设计和生产了,而只需要买别人实现好的硅片,然后在一个封装里集成起来,形成一个 SiP(System in Package)。所以 chiplet 也是一种 IP,但它是以硅片的形式提供的。
 
chiplet 的概念最早来自 DARPA 的 CHIPS(Common Heterogeneous Integration and IP Reuse Strategies)项目。该项目试图解决的主要问题如下“The monolithic nature of state-of-the-art SoCs is not always acceptable for DoD or other low-volume applications due to factors such as high initial prototype costs and requirements for alternative material sets. To enhance overall system flexibility and reduce design time for next-generation products, the Common Heterogeneous Integration and Intellectual Property (IP) Reuse Strategies (CHIPS) program seeks to establish a new paradigm in IP reuse.”。而它的愿景是:“The vision of CHIPS is an ecosystem of discrete modular, reusable IP blocks, which can be assembled into a system using existing and emerging integration technologies. Modularity and reusability of IP blocks will require electrical and physical interface standards to be widely adopted by the community supporting the CHIPS ecosystem. Therefore, the CHIPS program will develop the design tools and integration standards required to demonstrate modular integrated circuit (IC) designs that leverage the best of DoD and commercial designs and technologies.” 从这段描述来看 chiplet 可以说是一种新的芯片设计模式,要实现 chiplet 这种新的 IP 重用模式,首先要具备的技术基础就是先进的芯片集成封装技术。SiP 的概念很早就有,把多个硅片封装在一个硅片里也有很久的历史了。但要实现 chiplet 这种高灵活度,高性能,低成本的硅片重用愿景,必须要先进的芯片集成技术,比如 Intel 最近提出的 Foveros,3D 集成技术。
 
 
 
3D 集成技术使我们的芯片规模可以在三维空间发展,而不是传统的限于二维空间。由于在二维空间里,摩尔定律已经很难延续,向三维发展也是一个自然的趋势。此外,正如下图所说的,这种 3D 集成技术除了提供更高的计算密度之外,还可以让我们重新考虑系统架构(enabling a complete rethinking of system),这个也就是 chiplet 模式给我们带来的各种新的灵活性,后面再详细讨论。
 
 
这里我们不详细讨论 3D 集成技术的细节,根据目前的发展,在未来几年,相关技术会越来越成熟,应该能够为 chiplet 模式的普及做好准备。
 
AI chiplet 的优势
总得来说,我个人认为 chiplet 模式对于 AI 硬件的长期发展会有非常正面的影响,主要体现在下面几个方面。
第一,工艺选择的灵活性
 
chiplet 模式的最大优势之一就是一个系统里可以集成多个工艺节点的硅片(如下图所示)。
 
 
这也是 chiplet 模式可能支持快速开发,降低实现成本的一个重要因素。大家知道,在芯片设计中,对于不同目的和类型的电路,并不是最新的工艺就总是最合适的。在目前的单硅片系统里,系统只能在一个工艺节点上实现。而对于很多功能来说,使用成本高风险大的最新工艺即没有必要又非常困难,比如一些专用加速功能和模拟设计。如果 chiplet 模式成立,那么大家在做系统设计的时候则有了更多的选择。对于追求性能极限的模块,比如高性能 CPU,可以使用最新工艺。而特殊的功能模块,比如存储器,模拟接口和一些专用加速器,则可以按照需求选择性价比最高的方案。
 
这一点对于 AI 芯片的发展是相当有利的。首先,AI 加速本身就是一个 DSA(专用领域架构),其架构本身就是专门为特定运算定制的,具有很高的效率,即使选择差一两代的工艺,也可以满足很多情况的要求。但目前,大多数这个领域的初创公司,都面临工艺选择的困境。如果选择先进工艺,可能一次投片就耗尽所有投资。如果不选,好像一下就输在了起跑线。如果 chiplet 模式成为主流,大家的工艺选择应该可以更加理性,工艺虽不是最新但性价比最好的 chiplet 会有更多机会。第二,对于很多可能大幅提升 AI 运算效率的新兴技术,比如存内计算,模拟计算(包括光计算),它们使用的器件往往只在相对较低的工艺节点比较成熟,和系统的其它部分怎么集成就是个大问题。chiplet 模式也可以解决这个问题,则这些技术的开发商可以以 chiplet IP 的形式提供产品,和其它不同工艺的功能模块集成在一起,而无需受限于 Foundry 工艺的进展。

 

 
第二,架构设计的灵活性
以 chiplet 构成的系统可以说是一个“超级”异构系统,给传统的异构 SoC 增加了新的维度,至少包括空间维度和工艺选择的维度。首先,如前所述,先进的集成技术在 3D 空间的扩展可以极大提高芯片规模。这当然对 AI 算力的扩展和成本的降低有很大好处。第二,结合前述的工艺灵活性,我们可能在架构设计中有更合理的功能 / 工艺的权衡,有利于 AI SoC 或者 AIoT 芯片更好的适应应用场景的需求。第三,系统的架构设计,特别是功能模块间的互联,有更多优化的空间。在目前的 AI 芯片架构中,数据流动是主要瓶颈。HBM(也可以看成是一种 chiplet)可以在一定程度上解决处理器和 DRAM 之间的数据流动问题,但价格还过于昂贵。对于云端 AI 加速,Host CPU 和 AI 加速芯片之间,以及多片加速芯片之间的互联,目前主要通过 PCIe,NvLink,或者直接用 SerDes 等等。如果是 chiplet 方式,则是硅片的互联,带宽,延时和功耗都会有巨大的改善。另外,目前的片上网络 NoC 是在一个硅片(2D)上的,而未来的 NoC 则扩展到硅片之间,特别是和 Active Interposer 结合,就可能成为一个 3D 网络,其路由,拓扑以及 QoS 可以有更多优化的空间。
 
第三,商业模式的灵活性
chiplet 模式在传统的 IP 供应商和芯片供应商之外,提供了一个新的选择:chiplet 硅片供应商。对于目前的 AI 芯片厂商来说,要么聚焦在 AI 加速部分,以 IP 形式或者外接硬件加速芯片的形式提供产品;要么走垂直领域,做集成 AI 加速功能的 SoC。对于前者来说,chiplet 可以提供一个新的产品形式,增加潜在的市场,或者拉长一代产品(工艺)的生命周期。对于一些硅实现能力比较强的厂商来说,也说不定未来会演变成专门做 chiplet 的供应商。对后者来说,可以直接集成合适 AI chiplet 而不是 IP(还需要自己做芯片实现),大大节约项目开发的时间。
 
因此,可以预见,AI chiplet 会成为 AI 硬件重用和集成的重要模式。
 
chiplet 模式的挑战
首先当然是集成技术的挑战。chiplet 模式的基础还是先进的封装技术,必须能够做到低成本和高可靠性。这部分主要看 foundry 和封装厂商。随着先进工艺部署的速度减缓,封装技术逐渐成为大家关注的重点。此外,集成技术的挑战还来自集成标准。回到 CHIPS 项目,可以看出,该项目的重点就是是设计工具和集成标准。Intel 的 AIB(Advanced Interface Bus)就是一个硅片到硅片的互联标准,如果未来能够成为业界的标准(类似 ARM 的 AMBA 总线标准的作用),则 chiplet 的模式就可能更快的普及。还有,对于这种“超级”异构系统,其更大的优化空间也同时意味着架构优化的难度也会大大增加。
 
除了集成技术之外,chiplet 模式能否成功的另一个大问题是质量保障。我们在选择 IP 的时候,除了 PPA 之外,最重要的一个考量指标就是 IP 本身的质量问题。IP 本身有没有 bug,接入系统会不会带来问题,有没有在真正的硅片上验证过等等。在目前的 IP 重用方法中,对 IP 的测试和验证已经有比较成熟的方法。但对于 chiplet 来说,这还是个需要探索的问题。虽然,相对传统 IP,chiplet 是经过硅验证的产品,本身保证了物理实现的正确性。但它仍然有良率的问题,而且如果 SiP 中的一个硅片有问题,则整个系统都受影响,代价很高。因此,集成到 SiP 中的 chiplet 必须保证 100%无故障。从这个问题延伸,还有集成后的 SiP 如何进行测试的问题。将多个 chiplet 封装在一起后,每个 chiplet 能够连接到的芯片管脚更为有限,有些 chiplet 可能完全无法直接从芯片外部管脚直接访问,这也给芯片测试带来的新的挑战。
 
最后补充一点,还是那句话,有挑战就有机会。个人认为,除了前面讨论的 chiplet 模式对普及 AI 硬件的推动,它还会促进 EDA 工具的发展。不论是集成技术,还是质量保障,很多 chiplet 模式的问题最终都需要 EDA 工具的改进来给出答案,需要 EDA 工具从架构探索,到芯片实现,甚至到物理设计的全面支持。这也是 CHIPS 项目的一个重点是设计工具的原因。