摘要
随着AI算力密度的持续攀升,液冷与800V直流供电正在成为全球下一代数据中心基础设施的核心双引擎。4月16日,由CDCC主办、腾讯数据中心战略协办的第四届数据中心液冷技术大会在深圳圆满召开。会上,腾讯数据中心专家架构师 曾宪龙,以《筑基智算底座:腾讯AIDC基础设施技术演进与展望》系统分享了腾讯在AIDC基础设施方面的技术探索与未来方向。其演讲荣获论坛“最佳演讲人气王”。
我是来自腾讯的曾宪龙,过去十多年一直负责IDC技术的演进与落地工作。今天,我将为大家介绍和汇报腾讯在AIDC方面的一些思考与探索。
首先,我想引入一个概念。今年2月,高盛提出了“halo”概念:由于众所周知的外部原因,核心资产正从可简单扩张的轻资产,向低淘汰率的重资产迁移。大家可能和我有同感——在AI快速发展的时代,没有什么比AIDC更具典型的“halo”属性了。它具有很高的壁垒,比如园区、供配电系统、制冷散热系统以及监控智能化系统,其建设成本、政策监管、建设时间和工程复杂度都充分说明了这一点。
面对重资产效应极其明显的AIDC基础设施,我们可以看到它的投入巨大且难以简单复制。作为从业者,这让我们感到些许欣慰。但同时,AI业务的迭代速度也是前所未有的快,无论是AI园区的集群规模,还是AI芯片、机柜的功率,都在发生快速变化。比如左边这张图,只是腾讯每年超GW级建设中很小的一部分。在这些园区建设过程中,IT部署的需求就已经发生了好几轮变化。
因此,今天我想重点探讨一个问题:我们如何通过技术创新,实现AIDC重资产的敏捷交付,真正让800V、液冷等技术有效支撑AI业务?
直奔主题,抛砖引玉。下面我介绍一下腾讯构建AIDC的解法,主要包含三点:
第一,模块化产品预制能力。基于腾讯过去的微模块及T-Block经验,我们提出了以F-Pod及LCMDC为主体的架构,重点解决敏捷交付过程中基建慢的问题。
第二,数字化仿真平台能力。在自研“动环”的基础上,我们构建了名为DcSim的数字模型线上平台,重点解决快速交付过程中方案配置的准确性问题。
第三,标准化集中设计能力。我们正尝试采用“三线设计”流程,重点解决突发项目带来的设计资源不足问题。
01、模块化产品预制能力
熟悉腾讯的朋友应该知道,从2012年甚至更早,我们就沿着这条技术路线开展实践。从微模块到T-Block,我们已构建起国内五大片区,累计拥有20多个百兆瓦级园区,实际运行IT负载远超1个GW。累计部署微模块超1万套,T-Block超600兆瓦,全国平均运行PUE、单千瓦机电及系统可靠性在行业内表现良好。
到了AIDC阶段,算力园区供给日益多样化,租赁园区不断增多,园区容量密度大幅提升。我们折算下来,每亩土地的IT产出已达1兆瓦甚至1.5兆瓦。这使得T-Block的模块级预制产品解决方案,在适配差异较大的多层建筑时难度明显增大。
同时,AI芯片的组网距离要求及超节点部署形态,与过去采用风冷列间空调的微模块匹配性较差。而集中式冷冻水系统也对AIDC的敏捷交付形成了较大制约。
那么,AI业务真正需要的AIDC是什么样的?它既要像微模块一样能适配各类差异化建筑,又要像T-Block一样能在5-7个月内稳定、标准化地交付所有机电及配套系统,同时还要面向高密度机架(如单机柜几百千瓦)提供全套产品化解决方案。
为此,我们自然想到将过去微模块与T-Block的重要特性进行整合,这也构成了TIDC的核心理念:将基础设施分为两层。
下层(F-Pod):借鉴T-Block方舱概念,但不局限于集装箱结构,采用更灵活的组件化部件现场拼装,承载电力、备电、水处理等通用功能,适配不同建筑。
上层(LCMDC):借鉴微模块的小集成概念,不再采用风冷列间空调,而是采用更完整、独立的产品化解决方案(如一体冷源+CTU或分体氟泵),构成不同版本的LCMDC来承载具体算力业务。根据业务是风冷还是液冷、高密度还是中低密度,提供不同版本灵活匹配。
LCMDC和F-Pod内部都配置了自研的数据采集器,可实现现场拼装过程中的自动组网与配置下发。这种分层架构让现场交付流程更清晰:对于一个非标建筑,我们先做预施工(如装饰装修、桥架安装),再部署通用功能模块,最后根据业务需求匹配最终版的LCMDC。更重要的是,这能让我们快速形成可迭代、可沉淀的标准SOP操作,这是AIDC敏捷交付的基础能力。
接下来介绍LCMDC的几个版本:
L1版本(面向中高密度液冷):单模块对应500千瓦IT容量,包含两列:一列纯IT列,一列动力列。动力列采用腾讯自研的GDM暖通设备(如ICS650一体冷源+双冷源风墙+CDU450机组)及电气设备(如弹性直流FDC360电源及自研弱电监控设备)。IT列部署10个液冷机柜(平均45kW,峰值140kW)+5个风冷机柜(峰值33kW),可灵活调配。
液冷架构:室内采用500kW LCMDC模块,配置1+1 2N的CDU及N+1风冷空调。每个液冷机柜的Manifold连接来自两个CDU的支路软管,每个软管上布置电动阀门及自研TIO控制器。室外侧采用一体冷源双盘管设备。过去两年,我们在自建园区进行了大量验证,实现了液冷的高可靠、低故障率,具备秒级快速自动故障定位与隔离能力。基于成熟方案,腾讯今年将有数百兆瓦的液冷机房按此方式建设部署。
风冷AE模块:对应两列(IT列+动力列)。动力列采用自研分体氟泵SHU200机组、FDC360电源及自研弱电监控设备。IT列风冷机柜平均功率16kW,峰值33kW。
TIDC的一个重要特性是快速平滑升级能力。当业务两三年后从风冷迁向液冷时,无需推倒重来。我们在设计AE版本模块时已做好接口预留,只需2-3个月通过部件替换,即可从风冷A1模块升级为液冷A1L模块。相比常规改造,可节省约50%的成本。这对减少前期决策成本与后期改造成本至关重要。
再说说F-Pod。我们借鉴T-Block方舱的设计经验,将电力、柴发、备电及水处理做成标准化的POD,通过组件化结构设计,保持软硬件接口标准化,同时适配各种建筑(既可用于大开间单层厂房,也可用于差异化多层建筑)。以电力Pod为例,不再必须采用集装箱箱体,而是通过预制底座、顶部桥架及标准化柜体进行现场灵活拼装,相比集装箱可节省20%的用地。各柜体内置T-One采集器,确保现场拼装的标准化交付及自动组网配置下发。
关于800V:TIDC面向800V,已在LCMDC及F-Pod两层同时开展工作。
中短期/小规模:在LCMDC层通过Power Rack设备替换FDC360电源,实现300V交流到800V直流的就近转换(类似风冷向液冷的平滑过渡)。
远期/大规模:在F-Pod层通过SST整体更换,实现10kV输入到800V输出,以最短路径提高效率。
此项工作正与腾讯自研服务器团队联合推进,预计今年Q4在华北某园区落地真实800V负载实验局,明年年中落成模组级800V机房。
02、数字化仿真平台能力
为确保前述各种预制化产品在集中并发交付项目中的方案设计与配置准确性,我们在2025年自研了DcSim平台1.0版本。其定位清晰:在深化设计过程中,同步完成线上数字模型搭建。
具体实现上,平台不仅是一个简单的线上绘图工具,而是内置了所有自研设备及解决方案的标准参数库、深化设计规则、设备接口及测点协议,甚至关联了未来的运营告警策略。以往机房在测试验证后可能还需数月才能完成监控平台部署;现在,腾讯在所有项目交付前,就已在线完成数字模型搭建及测点标准化,并基于此平台进行第三方测试验证,这对快速交付的质量保证至关重要。
为进一步提升准确性,我们今年升级到2.0版本:从内置“标准设备模型”变为内置“标准功能块模型”。1.0版本的操作对象是单个设备,需手动添加路由关系;2.0版本则将关联设备预先打包成标准功能块,操作从“拖设备”变为“拖功能块”。同时,我们在工厂产线及设备出厂时进行了大量自动化自检,确保线上功能块配置与线下预制产品严格对应。
例如:基于项目建筑底图生成房间定义,从预制功能模块库中直接拖拽IT模块(含电源、风冷空调)及电力Pod模块,拖拽动作自带连接关系,包含每面柜子、每面开关的上下级连接关系。基于此布局可后续开发监控及告警策略。一个通用模组约有10万个测点,通过该平台可高精度地完成配置。
03、标准化集中设计能力
为应对大量并发、突发项目,我们将采用三线分线设计模式,串联整个交付流程:
一线(架构与产品):聚焦预制化产品研发、制定解决方案功能块及每个项目的“三图一表”,管理设计院白名单。
二线(长期顾问伙伴):协助对定制化项目进行设计评审及DcSim平台配置工作。
三线(现场团队):聚焦现场接入配置及其他设计工艺项检查。
通过这种分工协作,为AIDC敏捷交付提供流程保障。
04、总结
为了实现AIDC重资产的敏捷交付,腾讯的解法是构建 “TIDC预制化产品 + 数字化集中设计” 相结合的模式。我们不仅要定义涵盖液冷和800V的预制化硬件设备,也要建立数字化仿真平台,再结合标准化集中设计模式,确保AIDC敏捷交付的飞轮能够精准、快速地运转起来。
以上就是我的分享内容,谢谢大家!
声明:文章供读者参考学习,仅代表作者个人观点。
535
