人工智能 (AI) 正在迅速发展,并渗透到我们日常生活的方方面面,从内容生成到客服聊天机器人皆是如此。与此同时,数据处理量大幅激增,而数据处理很大程度上依赖于强大的计算基础设施。此外,AI 模型在投入使用前,需要在先进的数据中心内完成训练和推理。
在现代化的数据中心内,通常容纳了成千上万台高性能服务器,它们的运行和散热都需要消耗大量电力。随着 AI 的快速发展,数据中心的能源消耗也急剧膨胀,引发了人们关于 AI 技术革命对可持续性和环境影响的担忧。
据国际能源署 (IEA) 估算,数据中心在 2024 年的用电占全球电力总需求的 1.5%,约 415 太瓦时 (TWh)。预计到 2030 年,数据中心的用电量将增长一倍以上,达到约 945 太瓦时,占比将达到约 3%。鉴于数据中心通常密集分布,可能对局部电网造成显著负荷压力。
塑造未来格局:调整数据中心供电架构,适应 AI 发展趋势
与搜索引擎等典型的网络应用相比,AI 的能耗通常要高出十倍左右。这主要是因为 AI 需要用到图形处理单元 (GPU),而每块 GPU 的功耗可达数百瓦。模型训练阶段尤其耗电,根据 OpenAI 的数据,模型训练 GPT-4 需要 25,000 块 NVIDIA A100 GPU,持续 3 个月,耗电量达 50 吉瓦时 (GWh),成本约 1 亿美元。
AI 的耗电量不仅未见放缓,反而每六个月就翻一番,整个行业的耗电量已堪比一个小型国家。面对如此庞大的用电规模,电能损耗问题日益凸显。电力在输配过程中,因电缆电阻导致的电能损耗高达 6%。从电网到 GPU 的供电路径中,电能需经历四次以上的转换,平均造成 12% 的损耗。
成千上万台服务器中,每台服务器的功耗可达 40 千瓦 (kW),因此需使用高功率总线将电能输送至机架。为了降低电流,标准的 12 伏直流 (VDC) 总线已升级为 48 VDC。然而,为了满足 AI 的巨大用电需求,可能需要采用更高电压的 +/-400 VDC总线架构。
图 1:数据中心需要经过多级电力转换
功率半导体对于高效的电力转换至关重要,有助于满足 AI 处理器和 GPU 的用电需求。碳化硅 (SiC) 和氮化镓 (GaN) 正逐步取代硅材料,因为它们能够制造出紧凑且节能的电源转换器,从而显著降低数据中心的总拥有成本 (TCO)。
创新方案助力提升能效和可持续性
从电网到 GPU 机架,数据中心的电力输送需历经多个电力转换环节。在供电网络的每个分支中,智能碳化硅 (SiC) 和硅 (Si) 电源解决方案都至关重要。电力首先经过固态变压器 (SST) 和自动转换开关 (ATS) 控制系统(由柴油发电机提供备用电源)。
接着,20kV 高压交流线路转换为三相 400V 交流电,然后接入不间断电源 (UPS)。在此数据中心供电入口处,EliteSiC 分立器件与功率模块可有效提升能效与功率密度。随后,配电单元在机架层级将三相 400V 交流电转换为单相 230V 交流电。
其余的电力转换工作都会在 GPU 服务器所在的机架上完成。在电源供应器 (PSU) 和电池备用单元中,SiC Cascode JFET和 PowerTrench T10 Si MOSFET的组合是高功率交流转直流方案的理想选择。其中,大电流 SiC Cascode JFET 对于下一代超大规模架构中电源供应器从 3 kW 升级到 5 kW 至关重要。
在电力传输过程中,安森美 (onsemi) 的EliteSiC 650 V MOSFET和 T10 MOSFET 可将 230V 交流电压先转换为 48V 直流电压,然后再转换为 12V 直流电压。此过程的关键在于良好的转换效率,以保持 Open Rack V3 (ORV3) 规范所要求的 97.5% 峰值效率。高转换效率可有效减少电能损耗,有助于降低运营成本和散热需求。
T10 Si MOSFET 和电源管理 IC 也用于将 48V 电压转换为中间总线转换器 (IBC) 所需的 12V 电压,为供电网络中的 Vcore(CPU 核心电压)分支供电。 此外,对于 400/800V 总线架构,SiC JFET 和 SiC Combo JFET 可在 IBC 级之前为热插拔/电子保险丝提供可靠的过电流保护。
AI 数据中心电源管理的未来趋势
在 AI 数据中心内,能效是最关键的电力参数。因此,必须在各个环节尽可能地降低电能损耗,其中散热系统会消耗数据中心高达 50% 的电力,而另一半则被 IT 设备(如服务器、存储系统和电力基础设施)消耗。
安森美是 AI 数据中心解决方案的领军企业,也是少数能够满足从电网到 GPU 整个供电网络需求的供应商之一。未来的发展将离不开先进的宽禁带技术,例如安森美的 EliteSiC和垂直 GaN,它们能够在更高的频率下实现稳健的电力转换,具有更高的效率,支持更紧凑的设计,而且可在更高的温度下可靠运行,需要的散热也更少,从而实现更紧凑的方案,同时降低运营成本。
165
