高效冷却是降低数据中心PUE的有效抓手。
数据中心的能耗与冷却息息相关。
拆解来看,数据中心靠稳定的电力维系芯片的高效运算,而电力消耗离不开热的产生,若热量得不到有效消散,温度过高会导致芯片性能下降、运算速度变慢。
因此,温控设备、冷却手段成为建设数据中心的关键一环。然而,温控系统也需要消耗电力,一个决定数据中心是否高效运行重要指标在于,电能的消耗占比。
而PUE(Power Usage Effectiveness,电能使用效率)是决定数据中心运行效率的关键指标,即数据中心总能耗/IT设备能耗,数字越小则代表用于芯片计算的电量使用效率越高,目前已普遍要求 PUE<1.3,甚至逼近1.2。
如何理解?如果PUE为1.3,即数据中心每消耗 1.5度电,其中只有 1 度电真正用于芯片计算,其余0.5度用于制冷、配电、照明等基础设施。
而冷却,往往是数据中心的耗电大户。
也有观点认为,数据中心发展初期,PUE>2可以说是常态,其中的冷却环节是造成PUE走高的主要原因。
降低PUE的路径有两条:一是充分利用外部冷却资源;二是数据中心内部的高效制冷。
外部冷却方面,数据中心可以通过自然冷却的室外空气(如高海拔、高纬度极寒地区)实现制冷,而不是依赖制冷剂。
2017年,科洛斯(Kolos)公司宣布在挪威巴朗恩建设世界最大的数据中心。据介绍,该数据中心IT功率将在2027年达到1000MW,而当地的寒冷气候和水电资源将帮助削减60%的能源成本。
我国同样有深藏在雪山的国家级数据中心——西藏宁算数据中心,也是目前全球海拔最高的数据中心。
更甚者,马斯克在最近的达沃斯经济论坛上表示,要把数据中心建在太空,冷却系统建在背阴处,散热效率会大幅提升。这样一来,结合其此前提到的太空太阳能系统,太空将是部署AI成本最低的地方。
那么内部制冷方案呢?目前的主流方案为风冷和液冷。
值得注意的是,随着数据中心单机功率不断提升,液冷方案凭借更强的散热功能,正成为下一代主流方案,渗透率已从10%提升至30%。
技术路线方面,高工产业(GGII)表示,数据中心液冷技术主要包括冷板式液冷(占比90%以上)、浸没式液冷和喷淋式液冷三大路径。
相关企业方面,可分为几大派别:有专攻数据中心冷却的英维克、佳力图等;工业制冷厂商如同飞、高澜等;传统空调、风机企业如申菱环境、奥特佳、松芝等。
从近期的AI话题热度来看,马斯克也表示,传统风冷的制冷效率赶不上芯片数量、算力的提升。而AI工厂(数据中心)的本质是一个自带发电站的巨型液冷散热器。
未来,随着AI大模型、算力需求的持续爆发,液冷将逐渐取代风冷的地位,成为降低数据中心PUE的主要抓手。
236