在由CDCC主办的2025数据中心标准大会上,CDCC专家技术组委员、北京电信规划设计院有限公司高级技术主管贾峻分享了“智算中心冷却系统思考”,现将演讲内容整理如下,供广大数据中心从业者参考。
1、风液同源系统架构
风液同源系统的出现主要是为了解决冷板式液冷风液比例不确定以及风液共存下冷却系统架构复杂投资高的问题。
风液同源系统的核心在于“一套冷源、两种末端、灵活可调”,即风冷与液冷共用同一套冷源,冷源以冷源池思路建设。在这种架构下,无论是液冷需求还是风冷需求,均从共用的冷源池中得到冷量,从而使冷源的总供冷能力与用户侧的实际需求更好匹配。这一架构不仅可以灵活调整风液需求、减少管路占用空间,还可以降低由于风液独立设置造成的供冷能力超配而增加的投资。采用池化建设思路,也有利于实现按需建设、分步部署,进一步提升系统的灵活性与经济性。
在风液同源系统中,液冷侧目前多应用高温液冷,因此液冷可直接利用自然冷源供冷,而对于温度要求较低的风侧,仍需依靠机械制冷实现冷却。
风液共用的冷源分为集中式、分布式两种形式。
集中式冷源:数据中心冷却水集中制备,使整栋机房楼内的风液比例具备较大范围的调节能力。按风侧制冷形式,集中式冷源主要分为两种形式。一是集中制冷,适用于可预判风侧占比较高的场景,通过部署集中的冷冻水系统提升整体能效,同时末端空调占地小,便于机房空调部署;二是分布式制冷,适用于风液比例不明确的场景,可在机房布置双冷源空调,将压缩机内置于空调内部,机房按风液需求配置双冷源空调、CDU,该方式管道占用空间小、系统结构简单。
分布式冷源:分布式冷源可按机房或机房内的IT模块部署。在此思路下,系统建设更易实现按需部署与分期建设。由于冷源设备颗粒度较小,有利于工厂化预制,能够快速响应机房建设需求。需要注意的是,在相同IT功率的机房楼中,分布式冷源设备占地面积通常大于集中式冷源,因此,采用分布式方案前需充分评估室外散热空间是否充足。
分布式冷源主要有两种实现方式:一是以冷却水作为冷源,二是以制冷剂作为冷源。在对冷却用水有严格限制、需实现无水冷却的地区,制冷剂方案更具优势,能真正实现无水冷却。虽然冷却水也可通过干冷器实现无水冷却,但国内很多地区在极端气候条件下,干冷器的出水温度往往偏高,难以满足液冷散热要求。因此,采用制冷剂实现无水冷却是更可靠的选择。
2、多水温冷却系统架构
提出多水温冷却系统架构,主要是为了应对液冷水温持续下降的趋势。随着服务器芯片功耗不断提升,液冷机柜需要承载的功率密度也越来越高。以NVIDIA为例,其最新的NL72机柜将72张GPU集中部署于单个机柜,相比以往分布在两个机柜的方案,功率密度成倍增加。要将如此高的热量有效导出,通常有两种方式:一是降低冷却液温度、增大温差;二是提高冷却液流量。相比之下,目前降低温度比提高流量更易实现。从资料看到,冷却液温度已经出现从40-50℃下降到30℃甚至更低的技术趋势。
通常来说,数据中心服务器的使用寿命约为4~5年,但智算芯片的更新迭代速度却快得多。以NVIDIA服务器芯片为例,其更新周期缩短至两年。这意味着数据中心内部可能同时运行着多代的服务器,而不同代际的服务器对冷却水温的需求也可能存在差异。因此,支持多种水温的冷却系统架构,很可能成为未来数据中心发展的趋势之一。
智算中心的冷却水温逐步下探。以往无论是集中式还是分布式冷源,液冷由于可适应较高的水温,通常可完全依靠自然冷实现冷却,无需启动电制冷。然而,当水温降至20-30℃时,电制冷便需介入液冷供冷流程。这也意味着,在智算中心规划建设阶段,必须提前为电制冷设备及相关管道预留足够的空间。
今天主要介绍两种多水温冷却系统架构。
集中冷源补冷式:该方案中,高温与低温液冷共用同一套冷源系统。针对低温液冷部分,通过增加电制冷设备进行机械补冷。高温与低温液冷之间的比例调节较为灵活,只需在建设阶段为电制冷和低温管道预留充足空间即可。该方式实施相对容易,且电制冷技术成熟可靠。机械补冷可以采用风冷、水冷冷水机组,也可以采用直膨式机组。这种方式适用于集中冷源系统。
冷冻水梯级供冷:虽然液冷温度持续下探,但目前供水温度仍普遍高于冷冻水机房空调的出水温度。因此,可将冷冻水先为冷冻水空调供冷,升温后的水再用于液冷(如CPU冷却),从而实现冷量的梯级利用。这种方式不仅提升了冷冻水的利用效率,对于已具备冷冻水系统的数据中心而言,改造难度也相对较低。
3、智算网络与机房空调形式
智算中心与通用数据中心在空调形式选择上存在差异,这不仅源于算力服务器的散热需求,也与智算特有的网络架构有关。智算中心需依赖高性能无损网络来满足算力协同需求,此类网络对传输时延、稳定性有极高要求,其性能直接关系到整体计算效率。
为实现“传得快、传得稳”的目标,无损网络通常对服务器与交换机之间的物理距离有严格限制。无论采用何种网络架构,核心原则都是尽可能缩短组网设备间距、简化布线路径。更近的设备布局与更短的线缆长度,有助于保障网络速度与信号质量,从而为高密度、低延时的智算任务提供稳定基础。
在智算中心中,机房空调的选择需兼顾散热需求与网络布局。机房空调形式主要包括房间级、行级和机柜级。房间级空调布置于机房外围,不进入机柜行列,对网络布线无影响;机柜级是贴着机柜安装,对于网络影响较小;行级需要注意列间空调,因为列间空调是安装在2个机柜之间,可能增加网络布线长度,一些智算中心会对这种空调形式进行限制。近端小风墙虽然也是行级空调,但并没有进入机柜之间,而是在机柜外面、邻近机柜列布置,所以对于网络有影响,但影响不大。
目前应用较为广泛的形式包括房间级大风墙、行级小风墙及房间级柜式空调。随着冷板式液冷在智算中心的占比逐渐提升,AHU与一体化氟泵等空调仍具应用价值。冷门形式主要应用于一体化机柜场景。
4、智算中心冷却系统展望
智算中心的风液混合冷却模式未来或将成为常态。随着服务器芯片功耗持续攀升,液冷技术已成为高密度算力服务器的必然选择;与此同时,电力设备、网络设备等功率较低的部件仍可沿用风冷方式。因此,风液混布预计将长期存在。
服务器芯片性能的提升与系统架构的日益复杂,推动了智算中心对电力、散热需求的全面增长。目前,单栋机房楼的功率已跃升至百兆瓦级别,且将会越来越常见。在这一趋势下,机柜功率密度持续提高,而建筑规模并未同比扩大,未来散热空间可能成为制约智算中心发展的关键瓶颈。因此,在保障供冷可靠的前提下,如何简化冷却系统架构,并实现绿色低碳、运维便捷、降低成本,仍是亟待深入研究的课题。
当前液冷技术处于快速发展的阶段,冷板、浸没等液冷技术在持续的并行演进中,尚无单一技术占据绝对优势。冷板液冷为了应对高功耗芯片散热问题,正朝着相变冷板、微通道冷却等更精细化的方向发展。浸没液冷虽经历一段沉寂,但随着NVIDIA等厂商计划在下一代产品中将其用于功率高达2300W的芯片,其在高功率密度散热方面的优势再次凸显。
冷板与浸没两种液冷方式未来或将在不同应用场景中形成互补。冷板液冷与现有风冷服务器兼容性较好,在存量数据中心的智算化改造中具有优势;而浸没液冷凭借其卓越的高功率散热能力,预计将在高功耗智算中心得到更广泛的应用。
智算中心对绿色低碳的要求持续强化。国家枢纽节点PUE不得高于1.2。即将发布的数据中心项目规范更首次将WUE纳入考核体系,体现了对节能节水要求的不断提升。值得关注的是,随着液冷温度逐步下探,电制冷的介入可能影响整体能效。液冷一直被认为是节能“利器”,但温度降低将需依赖电制冷,这可能增加实现更低PUE的难度。
回顾数据中心的发展历程,并结合国家“双碳”目标的政策导向,绿色低碳的要求不会放松。未来需通过余热利用、AI智能调控等多种手段,系统推进节水节电,共同推动智算中心冷却系统向更节能、更低碳的方向演进。
我今天分享就到这里,谢谢大家!
1318