• 正文
  • 相关推荐
申请入驻 产业图谱

Talk King-腾讯张佳斌 | 护航高密算力:腾讯自研AIDC供电架构创新与实践

47分钟前
24
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

腾讯数据中心高级架构师张佳斌,在由CDCC主办、腾讯数据中心战略协办的第四届数据中心液冷技术大会以《护航高密算力:腾讯自研AIDC供电架构创新与实践》为题,系统分享了腾讯在AIDC时代到来时对供配电系统以及电源的相关实践经验和体会。其演讲荣获论坛“最佳演讲人气王”。

今天重点分享AIDC时代下,我们在供配电系统及电源领域的实践经验与思考。我的演讲分为四部分:AI算力对AIDC供电的挑战、腾讯IDC电气架构演进、800V技术思考,以及总结与展望。

01 AI算力爆发与供电挑战

AI算力对数据中心供电系统的挑战最为突出,核心有两点:一是机柜功率密度大幅提升,当前腾讯AI数据中心GPU液冷机房单机柜最高功率已达140kW,后续或将升至180kW;英伟达预测下一代Kyber架构机柜起步功率600kW,甚至可达1MW,对供电系统承载能力提出极高要求。二是服务器电源要求升级,英伟达服务器芯片对电源瞬态冲击耐受从2017年Volta架构的155%/0.5ms,提升至Blackwell架构的200%,电压稳态精度从±10%收窄至±5%,导致功率波动显著增大。

从业务需求看,国家数据局数据显示,2024年1月中国日均Token消耗量仅1000亿,2025年3月已达140万亿,呈指数级增长。OpenRouter平台数据显示,2026年2月中国本土模型Token调用量已超越美国,虽目前仅占全球1%-2%,但增长趋势显著,预示国内AI算力用量有望逐步赶超美国。

GPU并行运算架构导致其负载波动远大于CPU,且同一集群内GPU负载同频同步,集群规模越大,波动量级越高,万卡级集群波动可达兆瓦级。这种波动给基础设施带来明显挑战:2023年前,腾讯华东某GPU机房出现电池每日充放电几十至上百次的情况,运行两年后,GPU场景电池异常率达4.28%,远超CPU场景的0.28%,拆解发现电池负极硫酸盐化比例最高达40%,造成不可逆损伤。

我们对1800kW柴发机组测试发现,负载波动超过150kW(不足额定功率10%)时,输出频率偏移就超出0.2Hz标准,虽腾讯现网未出现此类问题,但海外已有案例。针对该问题,英伟达联合多家企业提出三类解决方案:软件层面注入虚拟负载,无硬件成本但能耗增加;硬件层面限制GPU性能,折损投资回报;储能平抑峰谷,是数据中心最理想的方案。

目前行业已形成多层级波动解决方案:服务器侧用超级电容电解电容分别吸收秒级、微秒级波动;电源侧配置毫秒级响应的储能PCS装置,腾讯已启动预研试点;集群级波动方面,国内骨干电网可消纳数十兆瓦秒级波动,因此国内相关落地项目较少。

02 腾讯IDC电气架构演进

数据中心供电链路为:220kV市电→园区变电站→400V低压,经380V交流或240V直流不间断供电后,通过12V母线供CPU、54V母线供GPU。腾讯第五代数据中心为T-AIDC,演进历程分为四阶段:前两代以租赁、传统自建为主,混合部署交流与直流架构;MDC微模块阶段,全网投运超10000套,锁定分布式直流路线,系统效率达96%-97%;T-Block阶段,实现整站模块化,后期采用自研弹性直流一体柜;未来T-AIDC时代,将研发适配AI高密、800V、风液兼容的定制电源。

腾讯坚持直流路线的核心优势:一是可靠性高,高压直流故障宕机率远低于UPS,电池直挂可兜底供电20分钟;二是故障范围可控,分布式架构可将故障限定在240kW内,30kW模块分钟级可更换;三是可借力新能源行业800V技术红利提升能效。

传统高压直流存在负载兼容性差、行业标准化不足、能效优势弱化等痛点,因此腾讯自研弹性直流一体柜。该产品可在50℃环境不降额运行,具备10%长期过载能力,集市电直供、高压直流、UPS功能于一体,可有效解决GPU负载下电池频繁充放电问题,是腾讯首款全流程自主参与研发的电气产品。

03 800V技术思考

800V已临近普及窗口期,核心驱动是GPU高密算力需求、碳化硅器件成熟及英伟达主导的产业链协同。需明确的是,800V与SST无必然绑定,二者是独立技术路线:800V可通过P=UI原理降低电流、节省成本,SST核心价值是替代工频变压器、节省铜材。

行业普遍认为800V+SST是终局形态,现阶段更务实的路径是:依托传统工频变压器实现800V供电,或先以常规电压试点SST技术。腾讯对800V普及保持审慎乐观,年内将启动试点,目前其落地仍面临三大难题:绝缘安全标准需升级、1200V碳化硅器件存在瓶颈、行业规范待完善。

04 总结与展望

腾讯预判数据中心供电演进路径:现阶段400V变240V直流供电,中期通过Sidecar等架构实现400V变800V短距离供电,远期实现10kV直降800V供电。

整体总结:AI算力重构数据中心基础设施,直流路线是腾讯坚守及行业发展方向;电力电子技术迭代是架构升级的核心引擎;800V不等于SST,可先通过成熟方案落地;液冷与供电需协同设计,适配未来发展需求。当前行业正处于技术变革期,腾讯将持续深耕供配电技术,助力AIDC产业高质量发展。

声明:文章根据演讲速记整理,仅代表作者个人观点。

相关推荐