TDP 变化对室内散热技术的影响
AI芯片更高的热设计功耗是推动液冷技术普及的关键因素。随着人工智能、云计算、大数据以及区块链等技术的快速发展,数据资源的存储、计算和应用需求迅速扩张,特别是像ChatGPT这样的AI算力大功率应用场景加速落地,这导致AI芯片TDP(热设计功耗:处理器达到最大负荷时释放的热量)不断增加,2022年Intel第四代服务器处理器单CPU功耗已突破350W,英伟达单GPU芯片功耗突破700W,带来了更高的散热需求。
同时,服务器制造商正在将更多的CPU和GPU装入每个机架单元(U)。由于机架内有多个高性能服务器,即使有密封装置,向机架输送冷风的空调系统也无法提供足够的冷却能力。此外,在处理密集型应用中,分散计算的策略并不可行,因为即使是在单个服务器中,也存在物理距离带来的延迟挑战。因此,组件被压缩到单个设备内,从而形成高热密集的1U服务器,将机架热密度提高到前所未有的水平。
前几年,风冷系统通过让冷源更靠近热源,或者密封冷通道/热通道的方案,来适应更高的热密度散热需求。但是,随着机架密度升至20kW以上,传统风冷技术在面对高热密度场景时显现出散热效率瓶颈,无法跟上计算效率的提升。液冷技术以其高能效和高热密度散热特点,成为解决散热压力和节能挑战的有效手段。液冷技术相较于风冷技术,在低能耗、高散热、低噪音和低总拥有成本(TCO) 等方面具有明显优势。
液体的冷却能力是空气的1000至3000倍,导热能力是空气的25倍,这使得液冷技术特别适合需要大幅度提高计算能力、能源效率和部署密度的场景。想要部署密度极高机架(60kW以上)的设施在是否使用液冷方面几乎没有选择余地。无论如何配置或优化系统,风冷都无法提供维持IT系统可靠性所需的散热能力。在边缘计算和核心数据中心都是如此。因此,当芯片的热设计功耗(TDP)超过700-800W时,液冷是解决高密散热的必要有效措施。
TDP 变化对室外冷源技术的影响
液冷系统的换热主要分为一次侧换热系统和二次侧换热系统两个部分,二次侧系统负责将电子设备高热流密度元件的发热量带出机房,送抵与外循环系统做热交换的冷量分配单元的冷却介质循环系统。主要由冷量分配单元( 二次侧循环通道部分)、液冷设备、冷却介质供回歧管、循环管路、连接管路等构成;一次侧换热系统负责将二次侧冷却环路送抵的机房内元件产生的热量排至室外大气环境或通过热回收系统回收利用。一次侧冷却环路由冷量分配单元( 一次侧循环通道部分)、冷却水循环管路、水泵、冷源等构成。
在室外侧循环中,低温水在冷量分配单元(CDU)中吸收二次侧冷却液携带的大量热量变为高温水,由循环水泵输入到室外冷散热设备中。在室外散热设备中,高温水与大气进行热交换,释放热量,变成低温水再由循环水泵输送进CDU中与冷却液进行热交换,完成室外侧循环。
在一次侧循环中热量转移主要通过水温升降实现,根据不同水温,可分为完全自然冷却和机械冷却两种形式。自然冷却系统主要有开式冷却塔、闭式冷却塔和干冷器等类型,可提供30℃以上冷却水;机械制冷系统主要包含风冷冷冻水系统和水冷冷冻水系统,可提供温度较低的冷冻水。随着TDP的不断提高,要保证芯片侧的换热效果需要降低二次侧管路的冷却液温度,进而需要更低的一次侧水温。
当TDP在900~1500W范围或以上时,对液冷一次侧进水温度的需求越来越低,此时自然冷却提供的30℃以上的冷却水难以满足要求,因此就需要机械制冷系统提供温度更低的冷冻水。即室外冷源由冷却塔逐步过渡到冷水机组。
节选自《智算中心液冷技术发展报告(2024 版)》
该报告深入分析液冷技术在智算中心的应用现状、技术发展和未来趋势。旨在为智算中心的规划和建设提供参考,帮助行业同仁更好地理解和应用液冷技术,推动AI行业的可持续发展。
1340