• 正文
  • 相关推荐
申请入驻 产业图谱

阿里云晁怀颇——兼顾当下适配未来的技术架构

09/07 08:00
3702
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

摘要

2025年8月15日,第14届中国数据中心设计高峰论坛在北京成功举办。本届论坛以“创新设计 重构未来”为主题,聚焦技术创新,凭借权威视角、深度内容与专业阵容,探讨数据中心设计的新方向。阿里云数据中心研发主管晁怀颇,作为特邀嘉宾,以《兼顾当下适配未来的技术架构》为题发表演讲,从未来趋势、技术方案到适配路径进行了系统分享。

晁怀颇指出,业务形态的演进与数据中心规模的持续扩张,将推动行业在架构设计上兼顾当前需求与未来弹性。在技术方案上,晁怀颇分别从电力系统、冷却方式、方舱产品化以及智能化能力等方面,介绍了面向高密度、低能耗与快速部署的创新实践,并进行了阶段性总结。

围绕“适配未来”,晁怀颇分享了在电力架构升级、冷却系统优化、非标机柜应用等方面的应对思路与落地经验,强调设计需在标准化与灵活性之间找到平衡,并呼吁行业以前瞻视野和工程落地能力,构建能够持续演进的技术架构,为未来算力基础设施奠定坚实底座。

现将演讲内容整理如下(有删减),供广大数据中心从业者参考。

大家上午好!我是晁怀颇,来自阿里云IDC,主要负责技术架构和整体研发。非常高兴来到第14届中国数据中心设计高峰论坛。我本身也是设计出身,从业已有20年,一直与钟老师团队保持密切合作。后来加入阿里云,转向研发方向。今天非常荣幸,有机会和大家分享阿里在当下和未来的一些技术思考,希望能通过我们的经验,为行业贡献一份力量。

本次分享的核心思想是:在AI飞速发展、迭代加速的背景下,如何在兼顾当下的同时,最大化、最灵活地适配未来需求的变化。

分享将围绕四个部分展开:

第一部分,未来趋势,重点介绍阿里云用户对算力、IDC的需求演进,以及我们对行业未来发展的判断。

第二部分,在这些趋势下,阿里云IDC当前采用的技术方案,包括架构设计和创新实践。

第三部分,如何将趋势与方案结合,确保数据中心在整个生命周期内都能良好适配业务需求,实现真正的灵活性与可持续性。

最后,做一个总结,分享我们对行业的愿景与期望

第一部分:未来趋势

从业务看趋势

阿里云当前的业务定位非常明确,战略核心是AI驱动、公有云优先,可以用三句话概括:

第一,我们要建设一个具备AI服务能力、具有技术竞争优势的公有云服务网络。

第二,未来十年,技术发展带来的增量和变量都将围绕AI展开。

第三,在这种背景下,我们要以AI计算为核心,着眼长远,持续进行技术创新和产品升级。

从算力看趋势

算力的演进主要体现在两个方向:

Scale Up(纵向扩展):不断提升单颗GPU以及单机柜的算力,直到触碰技术或某一项能力的红线。

Scale Out(横向扩展):当纵向扩展遇到瓶颈,通过分布式架构,将多个Scale Up单元组成大规模计算集群,就像IP网络或以太网络一样,实现超大规模互联。

当前行业的适配方案,主要围绕这两个方向展开。

Scale Up 的发展特征

功率密度持续攀升:芯片级、机柜级算力不断增强,同时带来功耗快速上升。例如,海外主流算力机柜的功耗从1200W、1400W提升到1800W,未来还会继续增加。

机柜功耗迭代明显:当前智算机柜功耗在132kW左右,下一代将达到150kW,甚至200kW。未来的超大规模产品已出现1000kW的趋势。

机柜形态发生变化:为了支持更多GPU卡(从72卡到144卡,甚至576卡),机柜结构会发生重大调整。未来形态将呈现GPU前置、交换机后置、电源侧置、CDU与Sidecard分布于两侧,这对IDC空间布局带来巨大挑战。

Scale Out 的发展特征

集群规模将从“千卡”扩展到“万卡”,乃至“十万卡”。作为算力基础设施服务商,阿里云必须具备十万卡级集群能力,并逐步迈向数十万甚至百万卡的服务规模。

未来趋势-数据中心-总结

为了适配功率密度的快速增长,未来数据中心必须在以下方面全面升级:

电力架构:采用更高电压的直流供电,从当前的240V,升级到±400V,最终迈向800V。

行业动态:谷歌在OCP推动的±400V标准,Meta、亚马逊等企业也已参与。800V会导致PSU(电源模块)、机电器件、电容以及安规生态发生重大变化,阿里云下一步目标同样是±400V,而不是直接跳到800V。

冷却系统:针对更高功率密度,采用更高效的液冷方案,并优化冷却架构,适配未来算力机柜形态。

未来冷却技术主要呈现以下三个方向

液冷数据+

涵盖冷板、低温冷板、相变冷板、微通道冷板,以及相变与浸没式结合等多种方案,满足不同功率密度场景的需求。

冷却水温逐步降低

随着GPU功率的不断提升,冷却水温将持续降低,预计冷板水温30℃将成为长期趋势,以提升散热效率并适配更高功率设备。

液冷占比持续提升

未来机柜将逐步实现100%液冷覆盖,否则风冷将不可避免地触达IDC能力的边界,难以满足高功率算力集群的需求。

SCALE OUT 应对策略方面,在大规模横向扩展的趋势下,数据中心需要合理控制设施占地面积,并提供高效、经济的部署能力,以支撑大集群的快速建设和弹性扩展。

未来在电力架构方面,主要有两个核心思路

优化供电架构,提升空间利用率

通过架构演进,从2N架构向DR、BR架构过渡。相比传统2N架构,BR架构的占地面积可减少40%以上,释放出的空间可用于部署更多IT设备,显著提升数据中心整体产出效率。

全面采用锂电池备电,替代铅酸电池

全球调研数据显示,锂电池在数据中心备电中的占比,将从2020年的15%增长至2030年的65%。海外市场已大规模采用,阿里云也明确启动锂电池备电替代方案。相比铅酸电池,锂电池占地面积节省50%以上,这对于在2万平方米的数据中心实现100MW算力输出至关重要。

未来在冷却系统中,我们将更加注重合理配置水资源并提升利用效率。水的蒸发冷却是目前能效最高的方式,但在部分地区(如乌兰察布)水资源有限,因此如何在严格的水资源条件下,控制WUE(水资源利用效率)在0.1以内,对于提升IT产出和降低运行能耗至关重要。

在大规模集群建设中,数据中心布局正在向模块化与产品化方向演进。其中,海外主流采用“洋葱式”田字型布局,其核心逻辑是:中心层:网络设备,确保数据传输延迟最小化;第二层:GPU及算力设备,提供高密度计算能力;第三层:电力设备,保障供电安全与稳定;最外层:冷却系统,实现高效换热并最大化利用外部环境条件。

这种布局在能量馈送路径、光纤互联效率以及冷却与大气换热空间上都具备最优设计,是实现大规模SCALE OUT的关键趋势之一。

趋势总结

在未来数据中心建设中,SCALE UP是刚性需求。如果不能满足纵向扩展要求,数据中心将无法支撑高功率设备的部署,失去价值。

电力方面:架构需升级至±400V,未来可能进一步演进至800V。

冷却方面:以冷板液冷为核心,并向低水温冷板液冷方向发展,以适应更高功率密度。

布局方面:需要适配非标准机柜的部署,提升空间利用率与互联效率。

SCALE OUT则为弹性需求。通过2N架构依然可以实现横向扩展,只是代价在于占地面积增大,或在同等面积下IT产出降低,因此不作为当前重点展开。

第二部分:技术方案

技术方案-电力

在当前的技术架构设计中,阿里云采用全直流BR系统,这是我们反复强调的关键点。为什么选择全直流?因为数据中心中的所有设备,无论是直接还是间接,最终都需要使用直流电。通过在不同环节(如电源侧、输送侧、负载侧)切入直流,可以有效减少交直流转换环节,降低能量损耗,提升系统稳定性。这是目前最经济且最稳定的供电方案。

核心设备及作用

全直流BR系统主要由以下四类设备构成:DCUPS(直流不间断电源),原名“巴拿马”,目前我们逐步淡化该称呼,统一使用DCUPS,以利于架构技术的推广和产品化发展。DCSTS(直流静态切换开关)专用于BR架构。传统BR架构成本高昂,主要因为交流STS价格过高。采用直流STS后,极大提升了经济性,使BR架构具备明显的成本优势。DCATS(直流空调供配电系统)负责空调和水泵的供配电,优化冷却系统的能源效率。锂电池系统作为核心备电方案,全面替代传统铅酸电池,节省占地并提升可靠性。

合规性与稳定性

合规性:该架构符合GB50174 A级标准,并且所有设备均通过安规认证(如STS带隔离功能等)。稳定性:采用标准化、模块化、分布式设计,具备N+2C冗余架构,系统容错能力强,可用性超过99.99%(四个9)甚至接近一个5,达到并超越行业平均水平。

经济性优势

成本更低:DCUPS设备价格不到交流UPS的50%,显著降低采购成本。能效更高:全直流架构减少转换损耗,整体能效优于交流系统,降低电费支出。敏捷交付:架构简化、模块化程度高,极大提升部署速度,支持快速交付。

技术方案-冷却

在冷却方面,阿里云研发了风液同源冷却架构,并针对不同功率密度场景推出了多款关键产品:

双冷源风墙系统

房间级方案:适用于10~20kW功率密度场景。

列级方案:可支持40kW甚至更高功率密度,满足高性能算力集群需求。

冷板CDU(单相)

支撑液冷方案,降低冷却能耗,适配未来高功率服务器

磁悬浮冷机

通过高效压缩技术,实现更低能耗与更高运行稳定性。

架构设计采用AB双套冷却架构,每套具备N+1冗余,即便一套故障,系统仍能保持稳定运行。容错保障方面,正常运行:送风温度控制在 ≤27℃;单套故障:送风温度保持 ≤35℃,满足服务器稳定性标准。能效表现方面,风冷系统:通过风墙+冷却塔组合,可实现PUE<1.15。实际案例:成都基地的房间级双冷源风墙,已连续稳定运行一年,全年PUE保持在1.15。液冷系统:进一步提升能效,PUE可降至<1.10,具备更强节能潜力。

合规:架构符合国家标准GB50174《数据中心设计规范》A级标准;设备合规… …。

稳定:标准化、模块化,分布式,N+2C配置;系统容错、计算可用度≥0.99995。

经济:设施效率高(>85%)、设备单价低,采购成本低;运行成本低。

敏捷:产品化程度高。

技术方案-方舱产品化

产品化是敏捷交付与灵活改配的关键手段。为实现数据中心的快速交付和灵活升级,阿里云在架构设计中全面推进产品化:

方舱集成:将机电设备集中放置于方舱内,采用工厂制造、现场拼装的方式,将传统工地“变工厂”,显著提升交付敏捷性和改造灵活性。

预制化管网:涵盖水系统和电力母线,实现标准化、模块化部署,减少现场施工周期,降低安装风险。

技术方案-智能化

云边端一体化监控架构

在未来数据中心运营中,智能化是核心能力。我们重点推进以下三个方向:

数字孪生

构建物理-数字-AI一体化模型,实现设备运行的可视化、可预测和智能决策。

IDC数字员工

提质:在应急响应、变更和维护场景中提升稳定性;

提效:自动化处理日报、工单等重复性任务,降低人工投入,提高运维效率。

机器人应用

数据中心场景固定、标准化程度高,巡检和随工可由机器人替代人工,确保稳定性,减少人为失误,显著提升质量与效率。

技术方案-总结

作为今天从事IDC行业架构或研发的从业者,我总结我们技术方案的核心要点主要有四方面:

一、技术指标满足业务需求

技术方案的出发点是满足业务规格需求,而不是单纯追求技术极限。

在风冷方面,目前可实现单机柜功率约40KW。虽然技术上可以做到60KW,但是否有必要、是否经济是需要评估的。

液冷方面,目前已可实现200KW左右的单机柜功率。理论上,实现更高功率甚至一兆瓦也是可行的,但需要与服务器及网络设备团队协同。

单栋楼的产出能力,目前我们可以在2.3万平方米实现约100MW的液冷能力。

二、资源供给与交付节奏满足业务发展

我们强调敏捷交付,技术方案的产品化率高:风冷约90%,液冷约95%。

标准交付SLA(含招采等环节)为135天。如果仅考虑现场设备进场及测试验证(约3-4周),90天即可完成机电现场交付。

这种高效交付能够满足业务快速变化与快速上线的需求。

三、稳定性与可靠性达标

IDC整体设计注重容错能力。

定量指标方面,可用度达到“四个九”(99.99%),部分方案可达“五个九”(99.999%)。

四、成本优势与供应稳定

成本方面,内部架构迭代已使TCO相比上一个版本降低约6%,通过集采叠加技术优化,仍有机会挑战10%的TCO下降。

对标外部租赁市场,单千瓦成本具有竞争力。例如在乌兰察布,采用方舱方案虽增加了成本,但仍低于传统租赁单千瓦成本。

供应方面,每个产品均有3-6家及以上供应商,确保产能充足且价格合理。通过采购联盟,可以保证供应商获得合理利润,同时为需求方提供经济合理的机房资源与设备。

总结,我们的技术方案核心价值在于:

技术指标满足业务需求;

资源供给与交付节奏满足业务发展;

稳定性可靠、成本具有竞争力;

供应充足且合理,形成经济共赢。

第三部分:适配未来

适配未来-电力演进思路

在考虑机房未来发展时,我们非常关注五年后机房所需支持的服务器类型及功率变化。为了确保机房能够灵活适配未来业务变化,我们先从电源适配入手。

一、电源趋势

未来IDC机房电源趋势明确:从目前的直流270V向正负400V甚至800V发展。我们的目标是在今天交付的机房中,五年后能够快速升级为正负400V或800V电源,而不受机房生命周期限制。

二、现有方案与适配能力

当前我们使用的产品为DCUPS(直流不间断电源),核心设计目标就是支持未来电压升级。

从270V恒压到400V,只需通过软件调节即可完成,产品在研发阶段已兼容400V能力。

升级到正负400V:通过将一个正极模块和一个负极模块串联,再引出一根线作为正负400V输出即可。

升级到800V:将正负400V的输出不接地即可形成800V电压。

目前我们已验证前两个阶段(270V → 400V → ±400V),第三、第四阶段(±400V → 800V)正在测试中。理论上可行,验证通过后即可投入使用。

三、灵活性与扩展性

今天交付的设备从设计上就考虑了未来电源升级,能够从DC270一直适配到±400V甚至800V

即使未来出现新型电源产品(如SST),我们的方案也具有灵活性,可在电源端进行改造,无需大幅改动末端设备。

对于计划直接建设800V机房的情况,调整同样简单灵活,可快速适配新需求。

总结

我们的核心理念是:通过可升级的电源设计,确保当前机房在未来五年乃至更长周期内,都能够灵活适配服务器功率和电源演进,既保证稳定性,又保留高度的灵活性和扩展性。

适配未来-冷却演进思路

在IDC机房设计中,冷却系统有两个核心诉求:快速、便捷的风冷改造;租赁机房需要便捷,意味着能够快速、经济地将机房改造为风冷系统。

我们在冷却方舱中预留了一定空位,可以放置CDU(冷却分配单元)或分布式悬殊小冷机。通过“加法”方式,可以快速将现有风冷机房改造为液冷机房。

液冷系统支持低温冷冻水,当冷板液冷机房需要低温液冷时,可以通过替换CDU或小冷机,将冷却水改为冷冻水。

低温液冷对下一代自研芯片和东南亚大卡机房的散热需求非常关键。

适配未来-非标机柜

随着GPU、Switch及Sidecard等设备布局的变化,机柜尺寸可能发生调整。当前方舱方案可适配宽度1.2米至1.5米、高度无限制的机柜,预计未来两代设备仍可满足需求。如果未来标准机柜无法满足要求,风冷方案也可演变为行间Sidecard布置形式。

IDC架构与电力系统适配

不同机柜电源架构(如NV的3+1电源)可能与IDC原有架构不匹配。传统2N机房需要从变压器层面进行改造,而采用BR架构的优势在于:只需在末端列头柜进行调整即可。每个列头柜为独立单元,例如10个列头柜可以组成9+1模式。源头馈电仍保持+2,但末端回路可以演变为+1,既满足需求,又具有经济优势。BR架构使得未来从源头+2到末端+1的演变更加灵活,能够跟随业务和设备布局的变化进行经济高效的调整。

适配未来-总结

通过灵活的风冷与液冷改造策略、非标机柜适配能力以及BR架构电源设计,我们能够确保机房冷却系统和电源架构在未来设备演进中保持高度适应性和经济性。

第四部分:结束语

数据中心是AI业务中不可或缺的重要环节。大家也都看到,今天数据中心的成本已经非常低,已经降到了TCO的个位数比例,但这种趋势将逐步扭转。根据2025年AI趋势报告,2022年至2024年,每个token的计算成本下降了99.7%,这主要归功于算力、算法和硬件的进步,而IDC在其中的贡献几乎可以忽略不计。与此同时,IDC的电费趋势是上升的,因此在整个AI业务链条中,IDC成本的占比将逐渐增加。未来,IDC在AI业务中的重要性将恢复到通用计算时代的水平——例如TCO占整个业务领域约25%,而今天仅占个位数。

我们的核心理念可以总结为:技术+管理让数据中心行业可持续、稳定、经济。技术层面:就是我们今天介绍的方案,包括灵活的风冷/液冷改造、电源适配及非标机柜解决方案。管理层面:包括完善的运维体系与工具,能够覆盖租赁机房,保障机房长期稳定运行。

这样,五年后机房不会变成“鸡肋”,仍能通过简单快速的改造继续服务业务,同时保持经济性和稳定性。

谢谢大家!

相关推荐