• 正文
  • 相关推荐
申请入驻 产业图谱

《AI时代的冷板液冷评价指标白皮书》核心要点权威解读

1小时前
37
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

2026年6月4日,在刚刚落幕的第七届数据中心绿色能源大会上,由CDCC联合上海格熵技术有限公司等单位主编的《AI时代的冷板液冷评价指标白皮书》正式发布。

该白皮书立足行业发展宏观趋势,结合标准规范与工程实践经验,构建了一套面向工程真实场景的液冷系统建议性统一评估方法论。该方法论以系统性、科学性、实用性为核心,跳出单点指标的局限,建立多维度、多层次的评估框架,兼顾散热性能、循环能耗与能效水平,明确评估边界与口径,旨在为行业提供统一的评估参考,实现技术方案的科学对比与优化升级。

会上,主笔人CDCC数据中心液冷技术研究员高山渊就该白皮书内容进行了权威解读。其演讲荣获论坛最佳演讲人气王,现将演讲内容整理如下,供广大数据中心从业者参考。

白皮书共七个部分:

1. 液冷系统性评估现状与挑战

2. 主流冷板技术方案与物理特性

3. 液冷评估方法论与技术指标现状

4. 液冷系统工程实践的固有开销

5. 基于冷板热阻及能耗与pPUE构建的系统性框架

6. 案例分析与验证

7.构建系统性的度量衡与技术演进展望

Part 01、液冷评估现状与挑战

冷板液冷是当前AI算力散热的主流选择,这已经没有什么疑问。当然,液冷技术还有很多分支,浸没式、喷淋等也在蓬勃发展,但从现状来看,冷板液冷得益于工程原理和介质上的特性,成为替代风冷的核心技术。

风冷为什么会达到散热极限?大家可以看到,不管是以风冷常用的12度温升作为标定,还是以液冷10度温升作为标定,应用液体之后都大幅提升了散热性能。如果演进到双相技术,比如用蒸发散热,散热能力还会进一步提升。所以面对高热量、高热流密度场景,路径是从风冷到液冷,再到双相液冷。

但评估液冷方案好与不好,面临很多挑战。

第一,定义混乱。 热阻和PUE的口径五花八门。举个例子,前两天有个印度公司发布宣称冷板可以做到5千瓦以上、热阻0.005,国内同行拆解后评论:如果你宣传冷板全程不提热流密度,就是忽悠外行。就在前天,又有人说搞出了15千瓦的冷板液冷,同样缺少关键参数。

第二,工况不明。 热流密度、冷却液类型、入口温度、出口温度、流量、压降、芯片面积、测温方式、测温点部署等,常常被有意无意选择性披露或完全忽略。

第三,指标孤立。 有时只强调低热阻,不提付出的代价;有时PUE宣称低到1.001,但这是真正的PUE吗?能代表整个系统水平吗?都有疑问。

Part 02、主流冷板技术方案与物理特性

介绍一下主流冷板往后的演进方向。

单相冷板。单相冷板很成熟,不展开讲了。未来可以进一步缩小微通道尺寸、优化流道结构,或者用金刚石材料提升散热能力等。劣势也很明显:可靠性问题、水质带来的问题,以及为提供更大散热能力要增加泵功。

泵驱两相冷板。当单相往前演进时,双相散热对高热流密度场景有天然优势,被看作面向未来的选择。但双相又分成两种:一种像单相一样用泵驱动流体,劣势是控制非常复杂,对系统承压和工质环保都有挑战;另一种是被动方式,用重力或毛细力驱动。白皮书选择了两相自驱动冷板(LHP)作为被动两相技术的代表。

两相自驱动冷板(LHP)。LHP的好处是循环不依赖机械泵,设备侧循环可以做到零机械功,而且没有泵等活动组件,可靠性非常好。但它面临很多挑战,比如跟IT设备强耦合,LTS形式必须把冷端部署在上部才能循环等。LHP作为前沿技术,相关数据也比较少。

对三条路线做半定量对比,各有优缺点。从概念图上可以看到,技术演进方向一定是热阻越来越小、能耗代价越来越小。越偏向左下角的技术,理论上未来潜力越大。

Part 03、液冷评估方法论与技术指标现状

接下来我们就看一下现在到底大家是怎么评估的。

单相冷板。OCP走在行业前列,给出了一套非常有代表性、有实操性的测试方式,从热阻定义到测试台定义到结果整理,都有参考意见。但仍有优化空间。比如流量只给了一个范围,而同样一块冷板,流量越大热阻越低。只披露热阻不披露对应流量,基础设施方很难确定该配多大CDU和冷源。

另外还有算术平均温差热阻的方式。前面提到那家号称15千瓦的公司,用的就是算术平均温差热阻。这种方法不能很好反映冷板性能,因为客户更关注最高结温或壳温到底是什么水平,芯片才能稳定运行。平均方法掩盖了热点。所以单相冷板目前面临两个问题:热阻口径不统一,泵功耗代价被低估或隐藏。

泵驱两相冷板。评估方法更多,最常用的是饱和温差法,以液体饱和温度做基线,根据壳温做减法算出热阻。但这有天然问题:饱和温度跟压力相关,泵驱两相运作过程各点压力不同,有压降时温度会降低。很多选的点会让热阻看起来比较低,但实际散热能力并不好,甚至可能出现热阻更低、壳温反而更高的情况。所以业界又提出了基于入口或出口温度的评估方法。

总结下来,泵驱两相的评估有几个结构性问题:多种热阻计算方式,饱和温差法存在误差;泵功率和设施能耗披露不完整;无法与单相冷板对比。做双相的厂家会说我的双相天然优于单相,但怎么优?口径不统一,没法横向比较。

两相自驱动冷板(LHP)。作为较新的技术,LHP还没有可以和单相冷板横向比较的指标。等效热阻概念也很难直接对比。另外,LHP或者LTS这类被动器件的冷凝端功耗,到底算在冷板系统还是基础设施里?争议很大,会表现出很不一样的评估结果。

液冷评估最后面临两个核心难点:热源怎么定义?责任边界在哪里?

热源为什么会成为焦点?在实际工程里,研发团队习惯用结温做参考,但横向评估不同冷板时,芯片封装工艺差异导致结到壳的热阻不同,所以建议用壳温做基准。白皮书做这个建议,并不代表实际工程中不能用结温。

PUE核算和泵功耗归属也有很大偏差。把什么算到IT能耗、什么算到冷却能耗,结果差别很大。之前做风冷,风扇天然算在IT里,今天液冷时代泵为什么算在基础设施里?面向未来,如果CDU集成在机架里,很多人会认为它应该是IT的一部分。到底把它算到基础设施里还是IT里面,争议很多。

Part 04、液冷系统工程实践的固有开销

为了解决这些争议,我们从底层分析系统循环功耗。不管是单相、泵驱两相还是LHP,循环功耗里核心是泵,但还有控制系统等功率,推荐都要算进来。设施侧的冷源系统也很关键。大家追求自然冷,但自然冷的前提是能满足芯片散热需求。很多人以为上了液冷就能上全自然冷,但实践发现不是这样。行业很多情况下要求30度甚至更低的水温,自然冷无法实现。这需要冷板做什么,我们要反推这件事的结果。

Part 05、基于冷板热阻及能耗与pPUE构建的系统性框架

基于以上分析,我们提出一套基于热阻、能耗和pPUE的系统性框架,从微观冷板解热层面到循环功耗到散热代价再到数据中心选址选型,给出推荐性评价指标。

第一标准化热阻。 公式大家都一样,关键是入口温度怎么确定。我们建议:单相冷板取冷板入口温度;泵驱两相取蒸发器入口液相工质温度;LHP取冷凝端外侧冷却介质入口温度。一句话:统一取基础设施工质入口温度。这意味着泵驱两相的CDU被划到了基础设施领域。

基于此,我们再去关注功率密度、热源面积以及整个循环功耗,就可以得出一个相对来说比较客观的数据。对于完整的数据记录,我们建议在披露的时候,不光讲热阻,还要同时披露功耗、热流密度、工质类型与流量、入口温度、压降。比如我们测的一款LHP:在3千瓦功耗、150瓦/平方厘米热流密度,水流量9升/分钟,进水温度46度,压降2千帕的工况下,测得热阻是0.015K/W,

第二、性能功耗曲线。 把热阻和循环泵功耗结合,我们做了一张曲线图,定义取得这样的性能付出了多少能耗代价。越偏向左下角(低热阻、低能耗),越有未来潜力。

第三,pPUE。 我们想精确定义针对冷却系统的PUE。今天大家说PUE,懂行的人会说你讲的是冷却系统的pPUE。但冷却系统范围划在哪里?某一个机架、某一列、某一个房间还是整个数据中心?不同范围算出来的值自然不一样。我们建议CDU、HRU、Sidecar等都算到冷却系统里,披露时要明确范围(机架级/数据中心级等),不包括电力、照明、消防等损耗。

把这三项放在一起,再附加TCO等指标,就构建了从微观到宏观的体系:用热阻统一冷却性能指标,用性能功耗曲线来度量能耗和性能的权衡,用pPUE宏观审计冷却相关功耗的边界范围,以及用整个系统定义我们在气候选型的时候是不是能够实现全自然冷等等条件。

理想技术一定不是单纯追求低热阻,而是在不显著增加循环功耗的前提下降低热阻,从而实现从热阻到功耗到整个PUE的综合优化。

Part 06、案例分析与验证

行业缺的不是公式,而是统一平台、统一信息披露机制、统一测试边界。我们提出第三方同台验证的建议,统一热源、温度边界、流体边界、功耗边界、运行边界。通过对行业数据的分析,这套框架可以把单相、泵驱两相、LHP纳入同一评估体系,但要认真处理数据边界,才能横向评估。

我们还总结了液冷方案披露“五问”:

第一问:热从哪里来?

第二问:热被什么带走?

第三问:我为这个热阻付出了多少功耗的代价?

第四问:我的pPUE计算边界到底在哪里?

第五问:我长期运行的风险到底是什么?

Part 07、构建系统性的度量衡与技术演进展望

单相、泵驱两相、LHP各有优势与约束,都会为AI时代贡献力量。这套方法论可以在面向未来出现其他技术的时候提供一个统一、可审计的评估框架,让大家清楚看到热源边界、入口边界、循环功耗、冷凝端、设施侧整个链条上的运作机制与相应代价。

感谢大家!

相关推荐