扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

AI“热”潮下的液“冷”关键技术及应对策略探讨

2025/09/03
2891
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

摘要

2025年8月15日,第14届中国数据中心设计高峰论坛在北京成功举办。本届论坛以“创新设计 重构未来”为主题,聚焦技术创新,凭借权威视角、深度内容与专业阵容,探讨数据中心设计的新方向。

中国移动通信集团设计院有限公司研究总监姜宇光,以《AI“热”潮下的液“冷”关键技术及应对策略探讨》为题发表演讲,姜宇光指出,随着AI算力需求爆发式增长,高密芯片功率持续攀升,液冷技术已成为智算中心散热的关键解决方案。姜宇光深入分析了当前液冷技术应用面临的三大挑战:系统复杂度高、部署难度大、服务器与机柜深度耦合等问题,并介绍了液冷生态构建现状,冷板液冷应用中的关键问题及创新产品和实践。

现将演讲内容整理如下(有删减),供广大数据中心从业者参考。

各位专家同仁,大家下午好!我是来自中国移动设计院的姜宇光。今天我分享的题目是《AI热潮下的液冷关键技术及应对策略探讨》。本次分享将从三个方面展开:

第一部分,AI智算发展热潮的背景;

第二部分,液冷关键技术的应对策略;

第三部分,液冷创新产品及实践案例。

01 AI智算发展热潮的背景

首先,谈一下AI热潮的背景。前面各位专家已经对相关背景进行了深入解读,我从运营商设计院的角度补充一些看法。过去几年,数据中心行业确实在大力发展,这一点大家有目共睹。从整体来看,这一发展可以大致分为三个阶段:

第一阶段,2021年之前。这个时期可以说是无序发展的阶段,建设了大量数据中心,但缺乏统一规划。

第二阶段,2021年。随着全国一体化大数据中心体系的发布,明确了“东数西算”战略、枢纽节点及相关建设要求,国家对数据中心规范化发展提出了明确方向。

第三阶段,2024年至今。在国家发布《数据中心绿色低碳行动计划》之后,叠加当前AI的爆发式发展,数据中心正加速朝着绿色低碳、高密度、高能耗的方向持续演进。

提到AI,就绕不开年初爆火的 DeepSeek。DeepSeek带来的的影响和特点主要体现在三个方面:

第一,降低了智算训练的门槛,但规模效应依然存在。 虽然大家普遍认为DeepSeek降低了模型训练的技术门槛,但要想训练出更优秀的模型,依然需要依靠“大力出奇迹”——大量的算力和能耗。这一基本法则并没有改变。

第二,加速了需求的释放。 由于训练要求降低,更多企业和场景开始涌入,带来了新的需求。这也印证了常说的“杰文斯悖论”:效率的提升,反而导致更多资源的投入。

第三,推理需求迅速增长。 DeepSeek的出现,显著推动了从训练到推理的需求扩张,尤其是推理需求的增长速度越来越快,规模也越来越大。

说完DeepSeek,我们再来看服务器和芯片。上午,阿里的晁怀颇晁总也多次提到 Scale Up 和 Scale Out 这两个方向。通俗来讲,Scale Up 就是如何让单个服务器节点的能力更强,而 Scale Out 则是如何让服务器节点之间实现更强的互联互通,提升整体集群能力。

在 Scale Up 方面,节点内部能力的提升高度依赖散热技术。例如,英伟达的 NVL72 已经大量采用了冷板式液冷,其带来的 GB300 未来也将全面采用冷板液冷,甚至 NVL576 可能会采用浸没式相变液冷的方式。华为 384 超节点同样会采用冷板液冷。这意味着,如果没有液冷技术,服务器节点的性能提升将面临瓶颈,无法继续向上突破。

在 Scale Out 方面,随着模型参数量的不断增加,未来集群规模可能达到万卡、十万卡,甚至是“星际之门”级别的几十万卡。Meta 还计划建设更大的园区,规模达到GW级,整体建设规模仍在持续膨胀。在这种情况下,能耗问题极为突出,液冷技术也成为不得不采用的关键方案。

前面内容总结下来,可以看到一些核心趋势:一方面,能耗越来越高,同时绿色低碳要求的PUE不断降低;另一方面,芯片的发热密度持续攀升,从几百瓦到一千多瓦,未来可能更大。 在这样的背景下,液冷已经从一个“可选项”,逐渐演变为“必选项”。

中国移动在液冷领域实际上已经持续探索多年:第一阶段,从2012年开始,我们在中国移动南方基地首次尝试了液气双通道的液冷模式;第二阶段,在多个省市开展试点,应用了热管液冷、水冷的冷板液冷以及浸没式液冷,并在汇聚机房的BBU场景中落地实践;第三阶段,进入规模化试点,主要集中在内蒙古呼和浩特园区,其中包括B09国家示范工程,以及当时业内最大的单体智算中心 B07项目,大规模采用了冷板液冷技术。

02 液冷关键技术的应对策略

下面针对一些关键技术进行探讨。

首先是液冷的发展方向。目前液冷有多种形式,主要包括:冷板液冷:通过液体间接换热;浸没式液冷:服务器直接浸泡在液体中进行散热;以及喷淋、相变液冷:这些都是直接接触式的液冷形式。

从整体来看,目前冷板液冷的生态体系更完善,是行业讨论的重点。很多人会认为,把设备直接泡在液体里散热效果最好,但从单项散热能力来看,冷板液冷的精准冷却能力与浸没式液冷基本不相上下。未来随着功耗密度的进一步提高,可能会出现基于相变的冷板液冷,以实现更高效的散热。总体来看,现在行业主要聚焦在冷板液冷方向。

接下来是交付模式。目前冷板液冷的交付主要有两种:一体化交付:服务器和机柜一起交付,类似整机柜交付;解耦交付:与传统风冷模式类似,服务器交付服务器的,机柜交付机柜的,两者分开交付。

目前使用较多的是一体化交付,但我们认为这种模式存在一些问题:生态方面,容易出现垄断效应,导致成本“黑盒化”。例如,服务器外面加一个壳,成本可能无缘无故增加;业务灵活性方面,一体化交付在匹配不同服务器时不够灵活。

相比之下,解耦交付优势明显:设备成本可以回归合理水平;上架、下架操作更灵活,能够更好地适配不同类型的服务器。因此,我们更推荐解耦交付模式。

最后我们谈一下CDU(冷却分配单元)。目前业内讨论较多的有两种形式:集中式CDU和分布式CDU,它们各有优劣。

集中式CDU:整体制冷容量比较高,是目前采用较多的形式。

分布式CDU:优势更多,尤其在接管复杂度上,分布式CDU的接管非常简单。从图中可以看到,它的管路设计清晰,安装便捷。此外,分布式CDU能够适配不同服务器的液冷需求,因为它是一柜一CDU,这样如果不同服务器对液体参数有不同要求,分布式CDU就能很好地满足。

另外,分布式CDU可以做到随机柜部署、随启随用,与传统机柜上架方式类似,灵活度更高。综合来看,在弹性部署的场景下,建议采用分布式CDU的形式。

再说一下水电接口形式。在冷板液冷的机柜接口中,通常有两种方式:手插和盲插。

手插模式:这是目前应用最广的形式,需要人工手动连接接头,并且要确保水电正对、密封可靠,防止泄漏。这种方式对人工操作的要求较高,相对复杂。从后面机柜的结构可以看到,接口布置比较繁琐。

盲插模式:结构更为简洁,除了设备本身简洁之外,接口形式也更加通用。盲插能够有效避免漏液,同时对人工操作的要求更低,只需要将设备推入即可完成连接,安装更高效、更安全。

接下来谈一下冷源形式。常见的有三种:开式冷却塔、闭式冷却塔和干冷器。

开式冷却塔:由于是开式系统,一般需要配备一个板式换热器,以保持水质要求。

闭式冷却塔:相比开塔,封闭性更好,但整体成本差异不大。

干冷器:虽然能耗性能稍逊,但它最大的优势是几乎不耗水,非常适合在缺水地区使用。

我们也对这三种冷源形式做了定量分析。总体来看,液冷本身已经非常节能,因此三种冷源在节能性能上的差异并不大。相对而言,开塔和闭塔略优于干冷器,但成本上,开塔和闭塔大致相当,干冷器会稍贵一些。

综合来看:缺水地区,推荐采用干冷器;其他地区,开塔或闭塔+板换的方案都是可行且可推广的。

最后,从运营商的角度分享一些关于风液融合的观点。

总体来看,行业内的风液融合方案主要分为三类:水系统的风液融合;纯氟系统的风液融合;水+氟的风液融合。

首先是水系统的风液融合。其常见架构是:上半部分为常规冷机加板式换热器,下半部分是液冷CDU,二者共用冷却塔系统。由于冷塔是共享的,通常需要按照风冷侧的参数进行配置,因此可能需要采用小温差架构,以实现两个系统共用冷源。

第二类是纯氟系统的风液融合。该系统室外采用蒸发冷凝器进行散热,内部则是纯相变氟利昂系统。末端液冷通过氟液换热单元(相当于一个CDU)来实现,一次侧是冷媒,二次侧是液冷冷却液。同时配有氟换热单元的增压设备(类似压缩机),以保证风冷侧的散热效果。

第三类是水+氟的混合架构,今天讨论得也比较多。这种架构主要通过双冷源空调来实现,常见形式有行间级、列间级,甚至还有阿里提到的风墙级等多种方式。双冷源空调负责低温风冷的散热部分,液冷依然通过CDU实现,室外共用冷却塔。

这两类氟相关方案都采用分布式、小颗粒度的方式,通过分布式压缩机满足风冷冷却工质的需求,从而进一步简化系统设计。

最后,再介绍一下中国移动目前的融合方案,可以说是一种相对保守的过渡性风液融合方案。我们现在推进的风液融合,更多是一种理念。因为我们认为,风冷是确定存在的,目前风冷依然占据绝对多数。基于这一判断,我们采取了以下策略:

通算风冷、智算风冷,共用一套池化的冷机冷源;液冷部分采用集装箱式集中泵站,以实现快速部署,匹配不同液冷需求。这样,在不同的风液比下,可以实现灵活、弹性的部署:一个是池化,一个是动态,一静一动,满足不同比例的需求;在此基础上做到极致节能,末端依然采用常规末端,以保证灵活部署能力。因为末端本身就具备快速部署的先天条件,这使得该方案能够在现阶段成为一种平滑过渡的风液融合方案。

我们同时也在探索一种新的风液融合方案,暂时称之为“叠冷”架构。该方案通过风液串联的方式,实现温度梯级利用,优化冷源效率。具体特点如下:

末端串联、梯级供冷:风冷和液冷温度不同,空气先经过风冷,再经过液冷,实现温度梯级利用;采用超大的供回水温差,温差可达20℃,从而降低供水流量,优化能耗。

高温水供冷:为匹配风液两侧温度需求,系统采用高温水供冷,延长自然冷却时间,提高能效。

系统管路简化:形成一套完整的串联系统,末端通过单一管路同时承载风冷和液冷,实现架构简化;风液比可随水温变化进行自适应调节。

匹配未来低温液冷需求:未来液冷温度可能进一步降低,需要更低水温供冷,通过叠冷系统的温度调节与风液温度匹配,能够满足低温液冷的供冷需求,实现高效稳定运行。

03 液冷创新产品研发和实践

最后,介绍一下我们的液冷创新产品研发与实践。结合前面提到的应对策略,我们针对液冷当前的几个关键卡点,研发了相关创新产品。

我们重点解决的卡点主要有三个:整机柜交付存在生态闭锁,成本高;水电接口众多,维护工作量大;漏液及防护不当带来的安全问题。

为此,我们创新研发了解耦型冷板液冷机柜(产品名:元泉),具有以下特点:全解耦、新架构、高兼容性、优效能。该产品已经获得北京市和中国移动“三首”成果双认定等多项奖项。

具体创新点如下:全部国产自主化:中间关键器件自主研发,包括前面提到的两总线解耦盲插,服务器可直接推入快速安装;兼容性流体互联装置:能够适配不同服务器的接口形式,实现盲插同时兼容非盲插设备;该装置为全球首款可兼容性流体连接器,已获得CQC认证;可维护动力源装置:液冷CDU配备在线插拔泵组,采用两套冗余设计,在保障安全的情况下,方便运维操作。

通过这些关键器件的创新,元泉冷板液冷机柜在解耦、兼容、便利性及安全可靠性方面都有显著提升,是我们应对液冷关键技术卡点的重要实践成果。

除了产品研发之外,我们在液冷生态建设方面也在持续推动。具体包括以下几个方面:

科创平台建设:我们牵头了两项国资委算网创新联合体任务,并与合作单位共建省级工程研究中心,推动技术创新与应用落地。

标准体系建设:建立健全了液冷相关标准体系,从国家标准、行业标准、团体标准到企业标准全面布局;

同时成立了信息通信知识产权联盟液冷专委会,进一步推动行业规范与技术交流。

生态建设与资源共享:构建资源共享平台,为产业链各方提供赋能支持,促进液冷技术和产业的协同发展。

通过这些措施,我们不仅推动了液冷产品技术创新,也在标准、平台和产业生态层面形成了系统支撑。

最后,介绍一下产品的综合效能。总体来看,我们的液冷产品具有以下特点:

安全可靠:产品通过权威测试认证,配备防漏液模块,显著提升整体可靠性。液冷系统中,漏液是最主要的可靠性风险,该设计有效防护了这一风险。

兼容适配:支持与UQD、UQDB接头兼容,各种标准接口均可实时适配,满足不同U位、不同类型服务器的需求,业务兼容性强,灵活性高。

性能提升:在综合效能方面表现更优,提升了液冷系统的整体运作效率。

便利运维:采用盲插设计、一体导通,可实现快速部署与维护,运维效率提升超过30%。

目前,这款产品已在中国移动数据中心落地应用,取得了良好的效果。

今天我分享的内容就到这里,感谢大家的聆听!

相关推荐