• 正文
  • 相关推荐
申请入驻 产业图谱

快手李典林:AI时代下供电架构发展趋势

10小时前
111
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

摘要

在由CDCC主办的2025中国数据中心标准大会上,CDCC专家技术组委员、快手数据中心新技术研发负责人李典林做了《AI时代下供电架构发展趋势》的精彩演讲,现将演讲内容整理如下,供广大数据中心从业者参考。

在2025岁末之际,CDCC荣幸邀请到白皮书核心编委和技术专家做客直播间,从白皮书编制的心路历程出发,一起对800V的焦点问题再度进行思想碰撞,在思辨中推进800V技术发展。

时间:12月18日20:00

去年在CDCC标准大会,我分享了《AI供电:特斯拉还是爱迪生》今年再回头看,IDC行业愈发火热,800V直流架构,更是成了业内的超级热点。我今天想借这个机会,分享自己的一些观察和展望。

回望整个行业的发展,风冷和液冷长期并存,交流供电和直流供电,也一定会长期并存。甚至从短期来看,在相当多的场景里,交流依然是更合适、更经济的选择。这意味着,传统的供电体系需要在演进中不断迭代升级。比如在交流UPS这一块我们正在实践的“极简UPS”方案,是面向AI场景的创新。如果在座的各位对这方面感兴趣,也非常欢迎会后一起深入交流探讨。

今天我分享的主题是:《AI时代下供电架构发展趋势》。从四个方面展开:

    • 一、行业变化
    • 二、供电需求
    • 三、潜在方向
    • 四、未来展望

行业变化——AI浪潮下各级功率激增

下面这一部分帮大家把几个关键趋势简单串一下。

首先是功率密度在急剧攀升。未来2kW、3kW级别功率的芯片都会陆续出现;行业里领先的单机柜,已经在冲击600KW甚至兆瓦级功率密度,预计明后年会有更多对应的产品出来,发展节奏是非常快的。

整个集群规模越来越大,大家说千卡、万卡、十万卡,美国最领先的头部,百万卡级别的集群也已经在路上。对应到基础设施侧就是机柜功率比过去提升了十倍、甚至百倍,单体建筑的容量也从过去的几个兆瓦、几十兆瓦,走到今天的上百兆瓦,甚至出现数百兆瓦单体的数据中心,目前国内也已经有一些百兆瓦级的单体数据中心项目在落地。

行业变化—头部公司投资巨大

投资规模空前巨大。这些数字可能略微有些滞后,但足以说明问题——今天美国头部公司的年度投入,已经到了大几百上千亿美元的量级;国内头部企业,每年的资本开支也是数百亿、甚至上千亿人民币的规模。可以预见,未来几年这样的投入还会延续,和整个行业发展路线是高度匹配的。

二、供电需求——AI时代供配电系统处在变革前夜

这些变化,对供电架构意味着什么?从机柜层面看,机柜功率会越来越高,IT白区在整栋楼里的占比越来越小,配电区、冷却区的比重在不断放大。单机柜功率冲到300kW、500kW甚至更高的时候,传统交流供电就会非常吃力,这时候就必须考虑800V直流等新的供电架构,来支撑更高的功率密度。同时,AI负载还会带来快速、大幅度的负荷波动,各种功率冲击都很大,尤其在美国一些电网相对薄弱的地区,这会变成一个非常头疼的问题。

从园区和电网层面看,GW级的数据中心园区正在不断出现。美国很多地区本身就“缺电”,负载波动可能对电网带来很大的冲击,对整个电力系统都会产生不小的压力,将会新增低电压穿越的要求,大规模储能的接入,各种电能质量指标的约束等等。

供电需求—数据中心技术发展的底层逻辑

讲到这里,回到数据中心底层逻辑。我们天天在谈技术创新、谈架构变化,但本质上,IDC技术永远是为业务而服务的。基础设施的演进是滞后于IT和业务的变化的,并不是说技术上能做到什么,我们就能立刻把所有机房、所有供电系统都全翻新一遍。

现实是什么?今天头部企业确实走在前沿,但同时我们还有大量在用的存量机房,它们的机柜功率还上不去;大量业务依然跑在传统架构上,这是客观存在。所以现在看,UPS依然是行业主流架构。现在的UPS,基本可以很好地覆盖单机柜200~300kW以下的功率段。美国的几家头部公司,不管是A100、H100还是GB200/300,主流供电还是UPS架构,能用UPS搞定的场景,优先用UPS。在散热方面,液冷喊了很多年,目前大多数机房其实还是风冷为主,能用风冷搞定,就先用风冷,实在搞不定了,再切液冷、或者再上800V直流供电。

真正推动液冷大规模应用,是这两年像GB200、华为910C这样的高功率服务器整机柜出来之后,单机柜功率达到了几十上百千瓦,这才带出了一轮新的供电和散热升级。说到底,还是服务器在牵引IDC,而不是IDC去倒逼服务器。而且,现实环境是多元、复杂的,有大量老旧服务器还在服役,有通用计算,有存储,还有各种不同形态设备,不可能“一刀切”说从什么时候起全部上液冷、全部上800V直流。所以我们更相信一句话:“存在即合理”。行业一定是一个逐步发展的过程,对业务方来说,风冷也好、液冷也好、交流也好、直流也好,最重要的是能不能解决当前的问题、保障业务稳定和成本可控等。

面向未来,现实挑战是芯片在快速迭代,但基础设施不可能每一两年推倒重来,这就要求我们在供电架构上既要有前瞻性,又要有节奏感——提前规划、先行试点、验证成熟之后再逐步推广、平滑演进。

供电需求—AI供电不同阶段发展路线

英伟达的路线图为例,其实就很典型:

第一阶段,是基于第一代传统UPS的供电架构,整套系统建构在UPS平台之上,随着机柜功率不断攀升,到了三五百千瓦更高功率段时,会在IT机柜侧加上Sidecar,用来满足800V高密度直流供电需求,但供电体系的核心仍然是UPS,只是IT机柜侧做了增强和扩展;

再往后,当整个产业链更加成熟时,会出现集中式的800V高压直流系统——不管是今天大家讨论的传统变压器+800V供电系统,还是类似“巴拿马电源”或者叫DC UPS这一类新型形态,都会在更大范围内承担起高压直流供电的需求。最终,到电力电子变压器成熟后,才会逐步走向以SST(固态变压器等新型电力电子设备)为代表的更新一代供配电体系。AI时代供电架构的演进是一个循序渐进、分阶段演进的过程。

供电需求——短时间内还是UPS方案更有优势,但也需要升级

这里结合某公司这张HVDC发展规划图,快速把整个供电架构的演进逻辑跟大家梳理一下。

首先,从功率段来看,美国互联网公司主流的250kW以下整机柜,还是以48V PSU+BBU的整机柜供电形态为主;只有当机柜功率上到300、500kW乃至更高时,才真正需要引入800V的高压直流电源系统。而且这个过程不可能一蹴而就——一开始如果直接把主板改成800V输入,改动会非常大、产业链压力也很大,所以现实路径一定是过渡方案:先维持48V主板供电不变;等到800V整个产业生态真正成熟之后,再逐步把800V下沉到主板层面;最后再演进到以SST为代表的新一代供配电体系。随着功率越做越大,颗粒度也在放大,从原来2~3MW一个变压器单元,走向3~5MW甚至更大的SST单元颗粒度,这本身也会带来一系列新的系统性课题,比如母线设计、故障隔离、冗余方式等,都要重新思考。

从架构对比图,可以非常直观地看到:整个演进趋势是“自上而下”——效率越来越高,成本越来越低,体积越来越小,交付越来越快等。其底层逻辑是在满足可靠性的前提下,把供电做得更高效、更省钱、更省空间,从CAPEX(前期投资)和OPEX(运维成本)两个维度要做双重优化。

这几年,中国头部互联网公司已经在大规模使用市电+240V HVDC的准2N供电架构:成本低、效率高、稳定性好、运维也相对简单,所以在很多互联网场景里,这套架构几乎成了“标配”。

但是,随着机柜功率一路往上冲,240V架构的不足就开始暴露出来。因为电压低、电流就会非常大。举个简单的例子:一个100kW的机柜,单路63A的开关,大概只能带约10kW,那么100Kw机柜2N供电就得配约20路PDU,或者20根电源线,这在工程上很难操作。在这种情况下,系统又会较自然地往UPS阶段“走回去”——因为UPS是三相供电,“一根线顶三根线”,在布线和配电上就有明显优势。

但问题在于:我们已经享受了AC+240V高压直流“低成本、高效率、易维护”的红利,就很难再退回到传统2N UPS架构,因为2N UPS在效率、造价,以及体积和故障半径等方面,都不理想。同时,我们还有大量的机架式服务器、各种形态混布,现实条件下也很难像欧美那样大规模去推进PSU+BBU的完全定制整机柜形态。

这就造成了今天一个比较“尴尬”的局面:高压直流是很好,但240V在高功率下又顶不住;2N UPS太贵、效率也一般,又不太想回头;完全定制整机柜的PSU+BBU形态,在中国现有阶段又不太容易大规模铺开。在这样的背景下,第三条道路——极简UPS架构,就可能成为未来的重要机会点。

它有几个明显优势:能够兼顾高效率、低成本、小体积和快速交付的诉求;服务器依然保持380V交流输入,不需要对现有服务器做大规模定制和改造;可以实现市电直供超高效率的目标,同时又具备较长时间备电能力;避免了在sidecar机柜里“硬塞”大量BBU电池带来的空间和可靠性风险。在这个思路下,我们认为“极简UPS”(基于传统UPS的简化升级)这种形态,很可能是下一步非常有潜力的发展机会。

潜在方向——新型极简UPS是下一波供电发展的重要机会

左图是大家非常熟悉的传统UPS架构,右边则是我们正在探索的、类似极简UPS/超级ECO的新型UPS形态。

为什么要做这个架构?因为现实情况是互联网行业,已经有大量服务器长期可靠运行在市电直供+240V HVDC架构之下;在美国,今天也有上千万台服务器,都是长期跑在PSU+BBU的市电直供状态下;在国内,甚至一些金融机构也已经开始采用UPS超级旁路这样的市电直供模式。大量实践和长期数据证明,市电直供是可以被接受的。可以让UPS回归它真正的使命:做好市电掉电下的“掉电保护”就好。

当市电稳定时,大量设备可以直接跑在市电直供体系上;只有在市电掉电或者电网波动较大,以及少数需要“极致电能质量”的关键负载上,才真正依赖UPS介入。这里我们借助的是传统UPS已经非常成熟的“超级旁路”技术。这种模式经过多年验证,可以做到准零毫秒切换:正常情况下走市电直供通路,实现超过99%的供电效率(用普通效率的器件就能做到);当出现市电异常时,UPS在极短时间内无缝切入,承担起掉电保护责任。

在这个基础上,我们就可以构建出一套超级ECO架构。效率更高:系统整体效率可以非常容易地做到99%以上;成本更低:去掉PFC部分的硬件和空间,有机会把整体成本再降低20%~30%;体积更小:电力设备做得更紧凑,可以集成为40尺集装箱的一体化电力模块;交付更快:标准化电力模块可快速落地,极大缩短建设周期。这就完全呼应了我们前面一直在强调的几个核心诉求:低成本、高效率、小体积、快速交付。从这个角度看,以极简UPS为代表的UPS2.0方案,很可能就是未来供电架构演进的一个重要方向。甚至针对美国800V sidecar方案电池装不下,且太靠近昂贵服务器带来着火风险的挑战,极简UPS方案实现了市电直供类似的供电效率,还提供了更长备电和更为安全的供电解决方案。

潜在方向——一体化10KV极简UPS不间断电力模块

传统UPS架构有一个现实问题:它本身体积比较大、结构比较复杂,如果我们想把它做成“产品化、模块化、快速交付”的一体化电力模块,其实并不容易。比如说,从10kV到变压器,再到UPS变换,最后到UPS输出配电等,如果要把这一整套系统都塞进一个集装箱箱体里,经常就得拆成两个电力模块才好运输,但这样成本会明显上去;要么就得在开关、保护等环节做很多“非标改造”,比如有人会用负荷开关代替断路器,这又会带来后续运维的复杂度和风险等。

所以,用传统UPS去做一体化电力模块,还是有一定挑战。我们提出了10kV极简UPS一体化电力模块架构:体积非常小,架构大幅简化,可以用“一个标准箱子”就搞定:从10 kV输入到380V不间断电源输出。实现了把灰区缩小,整个电力底座做得更小,这也是一个很好的方向。

通过极简UPS,我们实现了高效率,低成本,小体积、快速交付,类似于今天海外数据中心很多电力模块放在楼外,占地空间极其宝贵,如果能用一个电力模块搞定全链路供电,还是很有价值的。此外,采用交流供电,既可以实现IT不间断供电,也能够实现动力负载不间断供电,随着未来机柜功率和整站功率密度越来越高,空调等制冷系统本身也会变成“关键负载”,“供电+供冷”的连续性,会变得越来越关键。极简UPS可以直接带空调压缩机和风机,在掉电时对关键空调系统提供了不间断供电。当前交流到直流的过渡阶段,以极简UPS为核心的一体化电力模块,很可能会成为目前行业重要发展方向。

潜在方向——更高功率阶段的800V直流探索

我们再看未来的供电演进路径。随着单机柜功率不断增加到300KW以上,传统UPS会“力不从心”,那个时候才是800V大发展的阶段。通过800V技术,一方面可以明显提升整条供电链路的效率,另一方面整个系统体积也可以做到更小。等到后续直流产业生态成熟后,配电等各个环节的成本也会相应下降,因为电压提高之后,线缆可以做得更细。800V本身也是一个很好的方向:它可以做微网,方便叠光、叠储,很好地支持储能接入以及应对负荷冲击。就像兆瓦级超充的场景,市电容量本身可能不够,但通过叠加储能或者光伏,就可以支撑更大的功率输出,从而在容量侧体现出800V架构的更大价值。

用户在效率和体积的追求上是没有止境的,未来还是很可能会走向SST方案。但从目前阶段来看,我们认为SST存在成本仍然比较高,可靠性还不够好等问题,因为它是输入串联、输出并联的架构,这么多的串并结构在可靠性上会有一定挑战;再叠加高压侧运维本身的难度,从成本、稳定性以及运维角度来看,现在还不够成熟,短期内未必会有特别大的落地机会。

潜在方向——美国超高密度的800V sidecar方案

讲完供电发展路线,我们再看一下中美在供电趋势上的差异。今天美国为什么会发展出Sidecar这种形态?因为美国800V供电输入主要来自IT服务器侧需求。由于服务器发展太快,单柜功率做到好几百kW之后,原来的48V母线已经搞不定了;同时机柜内部的空间要尽可能留给更多的加速卡,从原来的72张、144张,到288张、576张,机柜空间都优先留给服务器,只能把电源部分移到IT机柜侧边。

对IDC来说,原本就是PSU+BBU的市电直供架构,机房本身不用做大改,只是根据末端的需求来灵活选择配48V母线还是800V母线,应对不同机柜功率发展需求,做不同功率包间,灵活采用48V或者800V整机柜。因此,美国更倾向于采用sidecar这种形态——机房不变,让服务器侧来解决800V问题,这个逻辑更多是服务器侧主导,而不是IDC侧主导。

但sidecar本身的挑战也很大。电源柜内空间非常有限,如果在一个sidecar机柜内,既要放交直流配电,又要放800V电源,还要放BBU,甚至是超级电容CBU,空间压力非常大。现在单机柜600KW阶段的备电时间已经很短,只有90秒不到;未来到了兆瓦级别之后,可能只有四十多秒不到。要在这么小的空间里,为兆瓦级负载提供足够的备电时间,不管是散热还是空间利用,挑战都非常大。

BBU里需要非常多的电池,把兆瓦级备电所需的电池都塞进一个小小的电源机柜,在大约20多U的空间里,不仅空间和散热压力巨大,如果锂电池质量参差不齐,还存在起火风险。在这么高的功率密度之下,旁边的IT机柜可能是“亿级”的机柜,576卡至少是数亿级人民币的造价,一旦发生事故,把这些设备烧毁,风险和压力都是非常大的。

再看美国为什么会推动SST?一方面,美国存在变压器短缺的问题,电网相对较弱,希望通过SST提升与电网的灵活交付能力;另一方面,SST本身具备双向能源调度能力,因此被视为未来发展的一个重要方向。而中国的情况有所不同:中国电网整体更强,也不太缺变压器,这些问题相对没那么突出。我们认为,在中国从采用传统的240V电源系统升压到800V反而更容易开展,也更快速落地,更为稳健。

这里还有一张800伏Sidecar的示意图:大家可以看到,在非常有限的空间里要塞下兆瓦级的电源、兆瓦级的电池,以及各种配电设备,挑战确实非常大。具体的细节和实际效果,还要看明年600KW机柜相关产品和方案的落地应用情况,即便600kW可以实现,未来1MW+的机柜挑战也会不小。

潜在方向——中国优先采用800V直流电源系统

再看中国这边的情况。过往,大家为什么广泛采用240V高压直流?在单机柜10~20KW的这个功率段,240V高压直流一直是非常好的选择:低成本、高效率、易维护,在“HVDC 1.0时代”完全没有问题。但是进入“HVDC 2.0时代”以后,机柜功率越来越高,240V就会越来越难搞定,自然就会走向更高电压的800V阶段。对中国来说,以前就习惯用240V高压直流系统,现在直接把240V“升压”到800V,是非常顺畅的升级路径。整体建设方式变化不大,运维模式也基本延续,推广和落地的难度相对较小。在这个体系下,双向DCDC+高压直流电池的组合非常关键:不管是锂电池还是铅酸电池,电压都比较高,需要通过双向DCDC接入;把双向DCDC和高压直流集成在一起做协同控制,责任界面、控制策略都会更简单;电池可以继续沿用解耦模式,就像现在的UPS一样,电源和电池可以分开采购,既可以只做备电,也可以叠加储能能力,做储备合一、峰谷套利和AI扛峰等。

潜在方向——极简UPS和800V直流电源系统的完美结合

进入800V时代,并不是所有设备都能直接适配800V,比如很多动力负载本身就很难改造成800V输入,除了那些高功率IT机柜外,还有大量的中低功率设备,包括弱电系统、空调动力等,都依然需要UPS来支撑。可采用极简UPS挂在800V输出侧,直接共享800V电池,正常情况下走市电直供的旁路,实现不间断供电和不间断供冷。

同时,它不占用高压直流本身的容量,还能实现约99%的供电效率,也不需要额外配置一套UPS电池,不存在电池重复投资和占地问题。极简UPS一方面满足了当前过渡阶段UPS的升级需求,另一方面也契合了未来800V时代动力负载“不间断供电+不间断供冷”的需求。

综合来看,极简UPS是一个非常好的架构,可支持sidecar挂电池,也能适配未来的800V时代做逆变,还能日常做储能备电二合一,这也是一个很有创新性的方向。

展望未来——800V高压直流的国内外不同演进路线

展望未来,前面我们梳理了整个IDC供电发展的历程,也对比了国外和中国的不同路径。我们认为:在国外互联网公司,最早是双路UPS架构,后来逐步发展到PSU+BBU市电直供架构,未来美国互联网将会采用800 V Sidecar架构做过渡,最后会朝着SST发展方向。但英伟达也提到,会有一段时间采用变压器+800V直流MV Rectifier这种过渡性架构。

在中国,传统的COLO机房更多会采用2N UPS架构,互联网公司则习惯用一路市电+高压直流。我们判断,当240V逐步走不下去的时候,会自然升级到800V电源系统供电,或者直接采用10kV中压直供800V电源系统,类似于阿里的“巴拿马”架构。当然,也会存在传统变压器+800V高压直流系统的形态。至于最后中美会不会都走到800V的SST,在终局形态上殊途同归,这一点我们可以留待观察,但目前看大方向是比较清晰的。刚才前面也提到,极简UPS是中美在过渡阶段都非常合适的一种架构,既能满足中国的需求,也能满足美国的需求,很有可能成为下一阶段的重要方向。

展望未来—800V直流架构的冗余和安装方式

最后,展望更远一点的未来。现在大家都在讨论800V,都在谈Sidecar,但普遍还没有充分考虑800V架构下的冗余和保护问题。我们做的是3~5MW级的电源系统,甚至是单机柜1MW的规模,不可能说单路掉电就“全挂了”,冗余一定要做到位。

从这个角度看,阿里的架构基于DC STS的N+2C冗余其实对行业有很大的启发:在这么高密度、这么大规模的前提下,再做传统2N架构会代价很大,N+1架构更有可能成为未来的发展方向。无论是机柜级的双输入,还是系统级的双输入,都需要把可靠冗余真正做到位,这也带来了双输入电源的机会,以及直流STS切换开关的机会,其最大贡献是不再做2N架构了。

再往更远看一看,因为电力“底座”要做到尽可能小、机柜功率却越来越高,就近供电就会变得越来越重要——既能减少线缆投资,也能提升运行效率。未来某一天,也许高压直流真的会变成列头柜的形态,实现就近供电,CDU也是同样的逻辑,就近供冷。而室外的电力平台,未来可能慢慢会变成储能电池的平台——特别是在像美国这样“缺电”的地方,可能需要更多的储能、更多的就地发电,这都有可能成为未来的一种发展方向。

展望未来—AI值得数据中心供电架构重做一次

最后做个小小总结。我们讲AI重新定义基础设施,随着AI的发展,我们几乎要把整套供电架构“重新做一遍”。从外电接入、园区架构,到2N、N+1冗余,再到新能源接入、配储能,大小母线供电、以及刚才提到的各种开关设备、STS等等,每一个环节都会出现新的变化和新的机会。AI将促使我们把整个供电架构重新定义、重做一遍。

最后这张图想表达什么?刚才前面提到的AI发展是非常夸张的数据,我们看到洛杉矶全市的用电负荷是2.5GW,纽约大概是7.5GW,而今天美国头部互联网的数据中心园区,单园区已经做到2~2.5GW,我前两天看到数据说,乌兰察布市整个负荷已经高达10GW,中国也在快速发展,这意味着,电力问题本身会变成非常核心的问题。所以,我们更需要一起思考:怎样把效率做得更高,怎样实现更低成本和更高密度,怎样让我们用电更加绿色、更环保,今天我的介绍就到这里,谢谢大家。

相关推荐