2010年,JEDEC中瞬态热测试标准JESD 51-14,通过对芯片结温的瞬态变化去解析芯片的散热路径。这种技术有两个前提条件:第一、热源为特定发热面积的单一热源;第二、热源有较为稳定的TSP(温度敏感参数)。
为了提高芯片效率,计算类芯片通过多芯片封装集成多个计算单元,主要基于以下优势:
性能提升
多芯片封装通过缩短芯片间信号传输路径,降低延迟和功耗。
资源整合
模块化设计使不同功能芯片灵活组合,提升资源利用率。例如,AI处理器常集成GPU、CPU、DPU等多类计算单元,分别处理不同任务,优化整体效能。
通讯能力提升
在数据中心或高性能计算场景中,多芯片封装能满足高带宽需求,例如NVIDIA的Blackwell芯片通过集成GPU、CPU和DPU,实现更大规模数据模型处理。
然而,由于芯片的高度集成,散热设计成了这类芯片的技术难题。我们首先需要对芯片的热问题进行精确的量化,因为有了精确的量化手段,我们才能确定改进后的散热方案,相对于原方案有多少性能提升,还有多少资源可以利用。
目前行业内量化的办法,主要是通过在芯片中内置一些温度传感器来观测芯片的温度。由于温度传感器的所在位置的时间常数可能是几百微秒甚至是毫秒级别,而芯片Die的时间常数通常是几十微秒,有着数量级上的差异,因此温度传感器的温度通常和结温存在一定的误差。

图一 VCC的温度和传感器的温度差异
上图可以看出,在散热情况比较良好的情况下,温度传感器的温度相对于结温要低6-10度,而到了几十秒以后,温度传感器的温度和结温才趋于一致,而且在1ms之前,传感器的温度变化很小,说明温度传感器的反应是毫秒级别,当芯片内部功率密度变化时,温度传感器的温度无法表征结温的变化。也就是说,温度传感器的数据,并不是芯片热问题的有效量化数据。
从第一性原理,直接用高频信号采集芯片结温的变化,基于JESD 51-14的标准,解析芯片散热路径的结构函数是精确的量化指标。但JESD 51-14只应用单一热源,而多热源的结构函数测试又应该如何解决?搭建这里的结构函数测试系统,技术上存在两个难点。
第一、要想控制每个热源的加热功率,必须要保证每个加热通道的电流完全隔离。如果不隔离,会导致在不同温度下,芯片之间的分流发送变化(温度会影响每个发热区域的导通压降),从而无法控制加热功率。
第二、当我们用不同的功率加热芯片中的多热源区域,达到热平衡后,我们认为其发热区域的面积和发热功率是确定的,因为散热路径也是确定的,当我们其测试结构函数的时候,需要实现多个加热源在1us内同时关断,让完全隔离的加热源等效成单一热源,这样解析出来的结构函数有明确的物理意义。而如果其中任何一个热源关断延时,会导致温度场发生变化而引起散热路径发生变化,实际数据也是无效的。
鲁欧智造为了解决以上两个问题,研发设计了多热源芯片结构函数测试设备CXAI,可以实现多热源芯片的结构函数测试,从而可以得到多热源芯片的量化数据。

图二 多热源芯片结构函数测试设备

以上是一个手机芯片的实际测试案例,芯片有两个发热区域Core1和Core2,对两个发热区域施加隔离的加热电源。

测试装置如上图,将芯片倒扣在恒温冷板上,芯片TOP面和冷板之间涂上导热硅脂,PCB给芯片供电,用砝码通过压力柱压在PCB上,以Core1为单一热源,有无导热硅脂形成双界面,测得Core1的Rthjc-top为1.3K/W。

图五 Core2加热时的结构函数
同样以Core2为热源,测定Rthjc-top为1.9K/W。

图六 双核同时加热时的结构函数
最后一项测试是双核同时发热,隔离电源加热,涂上导热硅脂,最终可以观测到,结构函数整体右移了很多,其结构函数热阻的增量大概是3.5K/W。
多热源加热,和实际工作场景比较接近。很明显,散热资源不变,由于多个热源需要共享散热资源,其实际的热阻值有非常大的变化,因而如果要准确去研究多热源芯片的热分布,CXAI是非常有效的测试工具。
值得重点指出的是,尽管通过热电偶或者温度传感器的数据可以粗略地衡量多热源芯片在某个稳定状态下的结温是否满足工程要求,但因为数据无法量化,因而无法分析出散热路径上每种材料热贡献的权重,当结温不满足工程要求时,其改进方案只能依据经验试错。
结温的高低决定散热路径的总热阻,而影响散热路径的总热租的因素非常多,比如,芯片内部的封装,芯片和散热器之间的接触热阻,散热器的自身设计等等,多热源芯片还要加上芯片之间的热耦合。当我们有了基于CXAI的精确的量化数据,可以系统分析整个散热路径,找到关键热瓶颈,可形成针对性的散热设计方案。我们可以测定每个热源的散热路径,也可以测试多个热源之间耦合影响,也可以根据实际工况,去定义发热区域的数量,功率,从而获得多热源芯片在实际工作场景下的可量化的数据,解析其对应的结构函数,建立可重用的热模型。
296