摘要
2025年6月11-12日,“第6届中国数据中心绿色能源大会”在上海成功召开。本届大会以“AI原生 算力重构”为主题,汇聚行业权威专家及领军企业,共同探讨AI时代下数据中心的绿色转型与基础设施升级路径。CDCC算力中心规划设计研究员韩玉,受邀出席并以《智算基础设施新挑战探索》为题发表精彩演讲。
在AI原生时代浪潮下,韩玉老师深刻剖析智算中心在规划、建设、交付及运维全生命周期中面临的“几大关键挑战”,包括容量规划的动态需求、弹性功率对配电与制冷的冲击、高投资快交付下的架构兼容性,以及从设备维保向AI调度与能效优化的运营能力重构。
他提出以“风液融合”、“模块化离配”、“动态弹性设计”等为代表的一系列前瞻性应对策略,为新一代智算基础设施建设提供系统性参考与实践思路,受到在场嘉宾高度关注。正如他所言:“智算基础设施的每一次挑战,都是系统性能力的重构机会。”
现将演讲内容整理如下(有删减),供广大数据中心从业者参考。
大家上午好!今天想和大家分享的主题是:面对当前不断变化的行业现状,智算基础设施面临的新挑战。
我们确实遇到了一些新的挑战,也在这些挑战中通过实际项目的探索,与一些行业同仁进行了交流和尝试。有些问题目前已经找到了一些答案,有些则还在持续探索中。
容量弹性规划的挑战
第一个主题聚焦在“弹性”。这个“弹性”不仅仅是机柜功率的弹性,更是整个园区产出的容量和规划,配电和制冷架构适配等方面的弹性。尤其是在最新智算叠加变动的高密度液冷场景下,智算中心交付更多的波动性和不确定性,这也使得规划方案到交付必须不断调整,甚至面临“更快交付”的压力(T+3~4交付机电),结合我们过去在项目规划、架构设计方面的经验,在弹性容量规划、交付方式、以及运营理解层面的一些实践过程中的思考和探索,今天也会在这里做一个分享。
第一个问题,以往在做云计算架构和容量设计的时候,首先关注的是一个园区单体应该建多大,是以同城灾备、同城三中心这样的架构概念展开。如今的智算中心建设阶段,大家开始倾向于在单体园区内实现更大规模、分期、弹性功率部署。
具体体现在容量规划上,过去网络规划中,讨论的是几千卡、几千台服务器的部署规模;而今天,万卡级部署已经成为常态,甚至已经出现了10万卡、40万卡乃至接近百万卡规模的园区规划。国内已有具体项目案例的园区规划设计达到40万台服务器的单体规模。与十几年前我们认为10到15兆瓦就算是“大型”数据中心相比,如今的单体园区已经可以做到100兆瓦以上,甚至达到1 GW级别, GW级(吉瓦级)数据中心的实际交付案例指日可待。
回到“单体”规划概念上,从十几年前我们做单体15兆瓦数据中心,到现在进入110kV变电站对应单体百兆瓦级设计,容量是10倍跨越性的。对于机柜而言,功率也从早期的个位数千瓦,增长到现在的几百千瓦甚至接近1兆瓦的组合机柜。原来那种分散式、PC级别的服务器布局,正在重新回归“大型机”架构。服务器的功率从过去的几百瓦,变成了动辄十几千瓦,容量的增长已经不是10%、20%的波动,而是成百上千倍数值的跃迁。这意味着我们面临系统和空间的弹性设计挑战是量级上的,其场景波动性不再是小幅调整,而是可能以倍数级别进行容量浮动,对设计提出了极高要求。
大容量规划及交付挑战——XAI在4个月交付100MW
我们以行业的具体案例,可以看到在传统数据中心与新型智算中心之间,无论是单机功率密度还是网络布线距离都面临巨大挑战。
这是美国特斯拉的XAI项目,采用改造工厂为智算中心。该项目在122天(约四个月)内交付了100兆瓦,并计划在接下来的90天(三个月)内,再交付100兆瓦。此案例也更和国内的类似项目建设节奏相同,通过对原有工厂结构的灵活利用,实现了高效的建设与交付。
项目采用了包括液冷、电力模块、预制化产品等多种冷却技术方案,一期部署10万张GPU卡,设计极低的PUE,同时保障了快速、高效的上线节奏。
从外部可以看到,整个改造型数据中心预留了大量的室外构筑物空间,用于放置发电机、电力模块等附属设施,而仅在核心区域保留了机房。这种设计思路非常典型地体现了当前数据中心的规划趋势——无论是在单体容量、建筑形态还是配套设施上,都要具备更强的弹性适配能力,以支持更大的容量跃迁和未来演进的可能性。
大容量规划及交付挑战——星门40万卡/64000台GB200的2年交付计划
另一个典型案例是正在建设中的星门项目,规划部署40万张卡。这是一个典型的“蝴蝶式”建筑布局,共由八栋建筑组成。建设节奏极快:目前是10个月内完成两栋楼的建设并交付8万卡的智算能力,而整个40万卡的部署计划将在不到两年时间内完成。
从容量上看,40万张卡大致对应500兆瓦以上的用电规模。这个项目选址在德州,很大概率是因为该地区具备较好的能源条件,包括天然气发电和土地资源优势。同时,由于缺乏水资源,该项目采用了干冷器冷却方案,以适应当地资源限制。
从架构角度来看,星门项目是智算的单体最大、网络中心极短距离集中式设计架构,搭配统一的中控运营管理中心。在早期云计算时代,也曾出现过类似设计15兆瓦规模的蝴蝶式数据中心。但与过去不同,如今的单体规模已经提升到了50~80兆瓦级别,在具体能源供电、电力系统和制冷系统设计上有了质变。
业务类型带来容量规划的挑战
接着看中国之前一直比较火的DeepSeek。参考一些公开渠道的资料来探索其具体规模。据其技术报告披露,在2024年1月份其爆火时的推理模型,仅使用了2048张卡,功率约为2兆瓦。
而据半导体公司究机构预测,DeepSeek若要构建完整的模型训练和推理体系,可能最终需要5万张卡左右,相应容量大概为50兆瓦。
也有观点基于AI工具和公开数据分析,认为其规模大致在3万张卡左右。也就是说仅需30~50兆瓦的级别,就可以完成其主要训练和推理工作。这种低成本、高效能的创新建设模式,与美国动辄数十万卡的超大规模形成了显著差异。
但是这种差异也反映在模型能力的最终表现上,例如高考数学试卷,使用OpenAI最新完整版模型可以做到满分,而使用DeepSeek或阿里的模型计算,分数能达到120多分或130多分。
所以,今天算力发展的核心驱动力依然是三要素:数据、算力和模型。在模型层面可以通过算法优化,在数据层面可以通过开源或共享获得突破,但唯独在算力平台层面,依然需要“力大飞砖”——也就是靠真材实料的硬件堆叠来支撑模型的训练与推理。
这也直接影响到我们在规划设计过程中的思考方式。即便是在同一个区域进行算力部署,不同客户在需求容量、节奏、交付规模、运营模式等方面也可能差异显著。如何在更大规模上实现更强的弹性部署和分批交付,成为我们需要应对的新挑战。
弹性功率波动对系统设计和运营的挑战
此外,还有一个虽未在当下具体发生,但未来很可能出现的技术问题:当前的数据中心在面对一些高功耗、波动性强的AI芯片时,会出现计算时负载波动问题。例如,GB200在常规运行时的功率约为130kW,但在满载或超频状态下,峰值功率可能飙升至180kW。这意味着算力负载不是持续稳定的,而是具有明显的峰值冲击。
业内对此已有一定担忧。在实践中,确实已经出现了局部超载的情况,部分解决方案是对UPS结合储能电池进行超配,但这会带来成本问题。更复杂的是,在一些大规模集群集中开启的场景下,负载甚至可能直接穿透到市电系统,造成更大的电力冲击。
我们也在思考,该如何更合理地应对这种问题:是否通过末端的PSU电源优化解决?是否引入电容器或飞轮技术缓解冲击?还是应该从配电系统系统架构层面重新设计,引入中压储能或者发电机的方式,以更好地适应这种高波动、高功耗的AI算力设备运行模式?
弹性容量规划应对——容量调整对液冷挑战
借用行业中的一张范例图,当液冷机柜的单机功率从几十kW提升到几百kW时,真正需要解决的问题不仅仅在系统级,而是从服务器内部冷板的换热材料换热能力开始到末端的冷却管路液体流量的影响。传统的单相冷却正在逐步转向相变流体的使用,这就引出了对芯片层级的液体热管理、水力设计、供热管路等诸多方面的全新要求。
我们可以看到一个很典型的变化:过去液冷机柜可能只有2个冷却接头,现在已经提升到了8个,你可以想象,在一个列级规模的系统中,整个后端几乎被冷却接头所填满,背后的根本原因,是机柜功率密度从过去的几十kW跃升到今天的几百kW,形成一个高密度、列级甚至整排机柜的液冷系统。在这种新形态下,行业内对于液冷的设计标准也随之发生了转变。
在此前行业讨论液冷技术规范时,我常被问到两个问题,第一,液冷到底在哪个层级上需要做到冗余备份的类似A级别认证?第二,为什么液冷一定要做到“机柜级”而不是“机房级”?
我的观点是:“当一个液冷机柜被设计为一个独立单元,具备可靠性和冗余能力时,可靠性评估的起点是从它的Manifold(分流歧管)开始,而不仅仅应该从CDU(冷却分配单元)起算。”CDU本身已经是一个列级模块,它的失效影响范围远超单节点。如果你不把它当作“单机柜”来看,甚至不重视每一个接头连接的可靠性,那么一旦出问题,它的“爆炸半径”是非常大的,尤其是高密度的GB200或者3000,影响集群规模巨大。
这也说明了一个问题:液冷已经从传统的“运维界面”、“机柜界面”,延伸到了服务器内部每一个U节点的层级,这对运维的稳定性和系统整体的可靠性都提出了全新的挑战。
大规模智算的解决方案,从研究Stargate(星门)、XAI、国内近期的交付来看,过去我们常见的是一个项目包含多个独立单体、分批交付;而现在,我们正走向更大规模的单体部署,在建筑设计上就进行预留,为未来扩展创造条件,并尽可能减少运维中心数量。这种设计要求我们在机电系统与IT空间之间留出弹性,同时网络架构仍然遵循原有定律,也就是说,网络架构与配电容量一起决定了单体设计的上限。
弹性容量及园区规划应对
在实际设计中,尤其是结合土建结构和标准建筑单体的条件下,我们往往会采用传统模式来满足IT功能区和机电设备功能区。但随着单体规模从50兆瓦提升到100兆瓦甚至更高,我们需要对配电、电池、发电机等系统进行重新组合与弹性冗余配置,为建筑空间释放更大适应能力,甚至将部分配电系统向室外延伸。也就是功能区域具备IT的机电的配比进行弹性伸缩的设计调整,也可以在容量规模上结合产品设计进行产出容量的动态调整,以争取在建筑规划面积不变的情况下,通过构筑物和建筑空间的调整,实现需求容量的动态调整适配。
这也说明,在定制化需求的反向推动下,我们的配电与冷却系统正逐步走向产品化、模块化、预制化,这已经成为当下大型智算中心建设中的一个重要趋势,可以弹性匹配智算中心的方案组合。
弹性容量规划应对——单体区域弹性布置/机电模块化
弹性功率配电挑战应对——升压/直流
所以今天我们面临的挑战,还因为高密度带来的机电方案的大调整。
举例来说,当单个机柜的供电从几个千瓦提升到几十千瓦甚至上百千瓦时,过去长期存在争议但尚未解决的问题——交流变直流,如今直流开始逐渐成为主流,甚至是首选。
传统的200V–240V直流供电或者交流220V已经难以满足高功率设备在线缆传输距离和容量密度方面的要求。因此,像英伟达体系中就已经采用了800V直流方案,成为应对这一变化的代表。这也直接引发了一个核心问题:我们需要尽快推进直流架构的落地。
从供电方式来看,传统模式是“市电 → UPS → 末端配电”,源-线路-荷的产品波动不大,但今天我们正在发生转变:架构变化 “去UPS化”,也就是将原有的低压UPS系统取消或向中压转化或者末端PSU强化。这意味着传统意义上集中部署UPS的架构已不再适用,而是变成了中压级或末端级配电架构。原因就是当机柜单功率为600KW时,出现了“一台UPS只对应一台机柜”的极致形态。
目前在不同企业的实践中,也出现了两种不同路径的演进方向:集中式大功率电源模式:如阿里正在推进的单体3MW的集中电源方案;行业也有市电直供 + 末端电源冗余方案,参考OCP方案,将供电集中末端解决”,即将电源控制与切换逻辑移至末端机柜,实现架构的高度分化与扁平化。
从整个趋势来看,传统UPS集中式供配电方案正面临被重构的挑战,而直流化、模块化、末端化已成为未来高密度智算中心的核心方向之一。
另外,当末端单机柜功率达到几百kV且负载波动较大时,如何结合储能应对这种情况成为一个重要课题,目前也在积极探讨中,是将传统的UPS后备电池结合储能放大到中压端还是末端PSU用更短时间的电容电池,也在持续商讨中。
传统的大量UPS加储能电池用于削峰调频目前研究较多。比如前面提到的负载从130kV弹性波动到180kV时,必然会导致UPS容量超配。传统的2N架构因为负载率低于50%,这个问题相对容易解决。但如果UPS采用DR或者RR主要依赖单机冗余配置,其过载能力和故障切换就容易让UPS转旁路甚至最终导致电力穿透市电网,整个配电系统架构的冗余设计需要重新考量。
“源网荷储”结合智算中心的新设计理念,我一直认为网与源是一体的,以前的负荷是稳定的不也容易实现储能的收益,但是智算的荷载弹性,会改变源网的前端系统的设计与架构。
弹性功率对配电和制冷挑战应对
弹性功率对制冷挑战应对——风液兼容弹性液冷比例
下面我们来谈谈关于制冷面临的挑战。
过去我们对液冷的理解往往是比较单一和理想化的,但如今的实际情况已经变得更复杂。在我参与的一个项目中,风冷与液冷的负载比例达到了 5:6.5,甚至在某些极端情况下接近 5:8.5,需要做兼容弹性设计。
智算中心在同时需要兼容CPU和GPU供水温度的场景下,也就是可能一个园区中兼顾推理与训练的业务,还可能涵盖存储、通用计算等多类CPU业务。这意味着,在设计阶段就要考虑到多种需求的协调与融合,应对不同功率密度智算设备的冷却方式和比例的解决方案。
因此,在一个项目中,我们常常需要同时配置风冷与液冷系统,不仅在建筑层面上预留吊顶和架空地板空间,还要在机柜层面区分不同的供水温度。这也促使“风液同源”的解决方案成为行业中非常关键的技术方向,即在同一区域内实现风冷与液冷系统的兼容、协同布局及设备预留,从而提高整体的灵活性与适应性。我们一般采用风冷液冷一体的风墙方案叠加冷板式液冷组合的架构方案。但是在单机柜功率为几百KW时,如何高效解决近端冷却问题,仍是我们面临的一大技术挑战,有待进一步探索与优化。
高密度液冷挑战应对——NV的GTC生态体系
英伟达主导的GPU时代,其在一开始就推动了完整的行业生态体系建设。这里想强调的是,融入英伟达GTX生态体系是至关重要的。因为在GPU大规模部署的背景下,英伟达所选择的架构方案,几乎决定了行业未来的主流方向。英伟达在自有架构方案中,从Manifold接头、服务器托盘、机柜、前端电源模块、到800V直流电源,都已经形成了完整的统一体系。只有真正融入这一生态体系,才能成为其解决方案供应商。
高密度液冷的挑战应对——GB300单机柜600KW+
我们来看GB300实物,单机柜液冷配置4根巨大的冷却水管,传统的600mm标准机柜框架无法承载,末端机柜需要结合功率需求重新定制与适配,这其中不仅包括机械结构,还包括热管理、电力供应等,GB300是一个完全自己全部解决风冷和液冷的完整方案,无需单独额外考虑风冷液冷比。
GB200的参考设计方案中,除了液冷机柜自带CDU,其风冷就已经提出了完整的背部风墙一体化设计。如果仍沿用传统解耦式方案,就需要单独考虑风冷对应比例的风墙和整合式CDU配置。
在当前智算背景下,我认为整个产业应该从终端出发,由服务器厂商“反向主导和推动”整个电力、冷却、网络等系统的设计,推动形成一个统一的行业架构。这样才能实现真正高效、稳定、可规模化复制的系统解决方案。
否则,如果还是各做各的架构方案,不匹配主流的智算设备,很多厂商的产品可能很快就会被淘汰出局,无法成为主流。
交付与运营挑战应对
在当前的大容量、快速交付需求背景下,为了在保障质量的前提下完成部署,预制化正在成为越来越多项目的重要选择。
近期我和一位同行交流,他打了一个非常直白的比喻:今天的数据中心建设,说到底就几件事——有没有卡、有没有能源、能源价格。
第一, 有卡就有业务。东南亚地区之所以成为新的智算增长热点,核心原因就是那儿有卡。
第二, 有没有能力把能源转化为稳定的电力供应。无论是天然气、小型核电还是其他形式,只有掌握了能源供应到智算中心,才有可能支撑起数百兆瓦规模的数据中心交付能力。
第三, 能源成本高低决定了智算中心聚集的规模。
以此来看,像美国、日本这样的地区,虽然“有卡”,但“缺能源”,所以要交付一个百兆瓦级别的数据中心都面临巨大挑战,这也推动了他们对“快速交付”和“预制化”的高度依赖。而如果我们能够切入这些市场,就会明显感受到项目机会和商业价值都非常可观。
反观国内,在“内卷”环境下,各方更关注的是成本控制。由于中国本身基建交付效率非常高,从立项到建设房屋和机电交付7-11个月都可以完成,所以对预制化的需求相对较低,这也受到成本、能力边界、市场竞争激烈程度等因素的影响。
插一句题外话,外电成本往往只在“能源有保障”和“卡有供应”这两个前提都满足后,才成为决策的第三维度。我们发现,真正具备算力芯片资源、能源保障,同时又能获得低成本外电的区域,才是今天数据中心最优先落地的方向,并不是所有“西算区域”都为此而受益。
交付挑战与系统设计应对
不过,预制化也并非没有挑战。当我们从传统工程定制交付转向模块化产品组合时,会面临以下几个关键问题:
供应体系复杂,难以标准化。如果厂商未能形成统一体系,产品之间的兼容性差,就可能导致所提供的解决方案难以成为主流。
产品不是自产,缺乏完整控制和运维保障。比如水泵、冷机来自预制化厂商,可能带来运行维护、维保责任不清等问题。
认证与合规挑战突出。在海外交付场景中,预制化产品可能还需满足当地的认证、合规标准,进一步增加交付难度。
风液冷混合方案处于波动期。设计方案如何适配、模块产品如何集成、规划如何预留弹性空间,都是目前需要持续优化的问题。
因此,我们今天所做的,仍是基于特定客户需求、特定场景、定制化需求的一套端到端解决方案。从设计规划、模块交付,到最后的产品化、运营保障,都需要在实践中不断思考和迭代。
还有一个关键问题是液冷系统在实际交付与运营中的稳定性和可靠性。
当我们在项目中采用风液兼容的设计方案时,风冷系统相对容易实现共用,但水冷系统由于需要特殊管路精准分配到每一个节点,因此带来了很多新的挑战。尤其是当每个机柜的功率都达到几十千瓦甚至几百千瓦,并且伴随频繁波动时,原来的设计模型——例如一个模块或包间只需要10台空调——现在在同样空间内可能需要管理上百台设备的散热问题,这就导致水力平衡成为一个核心难点。
特别是在高功率密度情况下,从几十千瓦到几百千瓦的功率段,如何进行水力热设计、如何进行CDU的选型与分布布置,都成为工程设计中的关键技术问题。
此外,液冷系统的可控性也正在成为一项重要考量。在现实中,客户签署的服务对象(SOI)已经明确将单个机柜视为最小单位,一旦某个机柜功率达到600kW级别,相当于原来60个10kW机柜的负载聚合在一起。那么在这种密度下,CDU(冷却分布单元)的设计就必须具备足够的冗余与可靠性。过去我们说CDU的Manifold接头可以做到“N+X”的冗余配置,或者“N+N”,看上去太贵且浪费,但现在我们要思考一个现实问题:一台GB300的机柜成本可能高达2000万美元,那为什么不能在CDU设计上多投入20万美元,来保障其运行稳定性?
如果不提升液冷系统可靠性,一旦一个600kW的机柜因冷却失效宕机,客户所面临的数据损失与运维方所承担的SLA罚则都将非常严重,远远高于当初省下的那点成本。
而在实际项目中,我也看到一些厂商还在讨论如何减配CDU、如何降低液冷设计冗余度,这些做法的后果,可能要等真出运营问题时采取反思设计。到时候结果如何,我们只能“拭目以待”了。
运营挑战应对
最后我们来谈谈运营阶段面临的几个核心问题,特别是PUE相关的挑战。
首先,现在很多头部客户在签约阶段,对运营阶段的PUE指标提出了更高要求,甚至已经超过了行业或者政府的相关标准,也高于当前智算基础设施的普遍设计要求。以纯风冷场景为例,客户普遍要求PUE要做到1.2到1.25之间。这个指标在深圳这样的高温高湿地区其实很难实现,但在华东、华北地区,客户则将其视为基本门槛。因此,在设计和交付中,我们必须对制冷设备的供水温度控制、末端盘管墙的设计,以及近端冷却方案的预留和部署给予更多关注——这些可能都是满足PUE要求的刚性前提条件。
其次,板冷系统的设计要求也在不断提高。以往的PUE标准可能是做到 1.2,但现在逐步向 1.15 靠拢。与此同时,供液温度到底是设定在25℃还是35℃? 这取决于GPU壳温的设计和散热能力,也就意味着我们在液冷方案中仍有很多优化空间与技术演进的可能性,值得深入探讨与推动行业标准的改变。
最后,是用水问题。随着数据中心规模迅速扩大,单体容量达到500兆瓦甚至1GW后,水资源逐渐成为真正的瓶颈。原本我们认为像华东、华南这样水资源丰富的地区不会受限,但一旦园区规模提升到GW级别,我们会发现,区域的自来水厂的供水能力已难以支撑,就像过去我们遇到的区域变电站容量限制一样。
在这种背景下,“无水方案”(如室外干冷器、闭式冷却塔)正成为新的技术选项。而如何在无水条件下依然做到极致PUE优化,是今天在制冷架构设计中必须正视的一项重大挑战。
总结
最后,我来做一个简单的总结,未来在智算基础设施的发展过程中,有几个方向非常关键:
第一,近端冷却与液冷弹性比的协同。随着冷板液冷逐渐成为主流,如何做好液冷系统与风冷近端冷却的协同设计,特别是在高波动负载场景下实现冷却系统的弹性调节,是一项重要课题。
第二,“源网荷储”体系的重新理解。现在“网”已经不再是主要瓶颈。真正的核心在“源”——电力源头的保障能力。不论是光伏、自备燃气电厂,还是接入小型核电,未来单体智算中心做到GW级需求时,关键问题是你有没有稳定、可持续的能源来源。
“网”部分可能只是过网费,但“源”的供给能力,才是限制你能否交付的真正障碍。
第三,负载波动对储能与配电架构的影响。“荷”的波动性越来越明显,也让我们开始反思——储能系统(如电池、飞轮)到底应该布置在中压侧还是负载端?目前行业仍在探索,我们自己也还没有完全看清楚这个趋势,但这会是接下来重点思考的方向。
第四,能源依然是核心。这里面有几个层次:
● 能不能拿到能源(可用性);
● 拿到之后能源价格是否稳定(成本);
● 能否持续供应(可靠性)。
我们看到有些地方在招商阶段会承诺电价补贴,但坦率的说,这种补贴在几百兆瓦级别的数据中心面前是不可持续的。最终你要靠自己的方案解决稳定、低价、长期的能源供给。
第五,IT机柜设计可能面临重构。当单柜功率从几十kW走向几百kW时,原本标准的服务器机柜设计将难以为继,未来机柜形态可能需要重新定义,包括末端配电方式、冷却结构、机房布局等,这其中潜藏着重大革新的机会。
以上就是我今天的总结分享。有些问题我们还在摸索,很多结论也未必已经有答案,只是基于我们所经历的项目和行业探索提出的一些思考。谢谢大家!
1702