当下,AI服务器市场呈现出蓬勃发展的态势,然而,一系列挑战也随之而来,其中耗电量激增问题尤为突出。据保守预测,到2030年,全球数据中心的电力消耗将占据当年总用电量的十分之一。以搜索场景为例,AI搜索与普通引擎搜索同一单词时,电力消耗竟高达10倍。在发电量有限的情况下,仅依靠增加发电量来满足如此巨大的电力需求并非长久之计,降低AI设备能耗成为关键所在。
功耗挑战
从服务器电力消耗趋势来看,AI服务器功耗的增长速度十分惊人。罗姆半导体(上海)有限公司深圳分公司技术中心总经理水原徳健指出,这与GPU的发展密切相关。
以英伟达产品为例,其功耗增长与迭代速度都令人咋舌。2023年推出的H100系列功耗为700瓦,今年推出的B300功耗升至1.4千瓦,而预计2027年推出的VR300系列功耗更将达到3.6千瓦。与此同时,英伟达产品的迭代速度也从两年一个系列缩短至一年一个系列。
英伟达GPU的高功耗带来了一系列棘手问题。当前系统多为48伏到54伏的低电压系统,当GPU瓦数升高时,为满足功率需求,输出电流必然增大。这导致电缆内部损耗增加、发热量上升,进而需要大量铜线。以1兆瓦AI服务器为例,约需4到5吨铜线,这不仅增加了成本,还使数据中心重量增加、占用空间扩大,同时散热和可拓展性也面临严峻挑战。此外,在服务器运营成本中,电力消耗占比高达60%到65%,高功耗已成为制约AI服务器发展的重要因素。
破局之路
为改善上述问题,AI服务器开始探索高压系统。水原徳健表示,目前市场上有两个主要方向。一是微软、谷歌、Meta通过Open Compute Project联盟推动的正负400伏系统;二是英伟达的800伏系统。在中国市场上,400伏和800伏系统均有开发,甚至有探讨升级至1500伏系统的可能。
800伏系统优势显著。从可扩展性方面看,目前服务器的DC系统最多做到100千瓦,而800伏系统可实现1兆瓦以上;从效率方面看,与54伏系统相比,端到端效率提高达5%,能有效实现节能。同时,骨干网电流降低,节省了铜材的使用,热损耗也大幅减少。目前,台达等企业都在积极研发800伏系统。
转向高压系统,服务器机架结构也将发生重大变化。在目前架构模式中,AI服务器由电网供电,经配电电压后进入服务器框架,框架内分为电源单元和IT单元,分别负责供电和运算,中间设有电池电容备用单元(BBU、CBU),当前母线电压为48伏到54伏系统。下一代AI服务器将升级为高压系统,电网基本保持不变,电源部分进行改变,将备用单元置于电源内,母线电压升至HVDC,即正负400伏、800伏甚至1500伏。
厂商机遇
在高压趋势下,提升AI服务器功效成为关键。这要求在电源侧提高AC/DC、DC/DC效率,在服务器机架侧增大功率密度。
水原徳健表示,这对半导体厂商提出了三方面要求。一是开发高效、高功率密度的功率半导体器件,这需要半导体厂商投入大量研发力量;二是引入高压技术,如800伏或正负400伏系统,这需要半导体厂商、GPU厂商和AI服务器厂商联合协作,共同推进;三是在产品量产时,构建全球化的QCDS体系,确保产品质量、成本、交付和服务。
罗姆看到了其中广阔的机遇。水原徳健表示,作为全球少数同时拥有功率和模拟技术的企业,罗姆的最大强项在于功率器件与模拟技术的结合,其产品包括基于Si、SiC和GaN三种材料的功率器件。
针对800伏系统,在电源侧,罗姆提供SiC系列产品;服务器侧的DC/DC分为一次侧和二次侧,一次侧罗姆提供1200伏SiC产品,二次侧则提供各种Si产品及GaN方案。这部分主要是DC/DC低压产品,电压范围在80伏到150伏,要求开关损耗更小、导通电阻更低。罗姆相关产品可使功率密度达到129瓦/立方英尺。若追求更高功率密度,使用GaN可使功率密度再提高一倍,达到246瓦/立方英尺。
水原徳健强调,使用SiC产品对提高电源和AI服务器效率有很大帮助。虽然目前最强的Ruby机型效率已达到98%,但要想达到99%,则必须使用SiC,这也是SiC在AI市场广泛应用的原因。
目前,罗姆的SiC芯片已发展到第4代,第5代样品已开始出货,预计明年将投入批量生产,两年后将推出第6代,随后还会推出第7代。相比第4代,罗姆第5代SiC芯片的导通损耗和开关损耗大幅降低,总损耗降低了约30%,更加节能。
考虑到适用灵活性,在封装方面,罗姆也制定了多种战略。现有Si或SiC产品的常见封装有TO-220、TO-247。为方便设计和小型化,罗姆推出了将两个TO-247并在一起的DOT-247新封装。若需要用到6颗TO-247,罗姆也有小型的模块HSDIP20。无论是贴片还是插件产品,该公司均有提供。
针对产品独家供应可能带来的客户开发、设计困难以及稳定供应问题,罗姆与英飞凌开展了合作。例如,罗姆原创的DOT-247封装产品,英飞凌也制作了同样的封装产品;英飞凌拥有的很薄的D - DPAK整个系列产品,因无第二供应商,便交给罗姆生产。这种合作方式能够使两家公司为客户提供更多选择和保障。
另一个高压带来的机遇产品是热插拔器件。热插拔是指AI服务器在运转时拔出槽位,这种操作会出现瞬间浪涌电流,可能击穿后面的设备。因此,需要一颗重要的MOS,同时还需要电流检测电阻和热插拔控制器。
罗姆的Si MOSFET代表产品“RY7P250BM”被全球云平台企业认证为推荐器件。水原徳健强调其产品有两个优势:一是安全工作领域(SOA)范围宽,便于客户使用和设计;二是能实现大电流,通过降低导通电阻来提高电流。此外,罗姆还在开发热插拔的控制IC。
结语
重大架构转型往往需要全行业协同发力。基于此,罗姆与众多电源设备厂商展开深度合作。例如,罗姆与台达达成战略伙伴关系,其EcoGaN™产品被台达电子Innergie品牌的45W输出AC适配器“C4 Duo”采用;村田的AI服务器也选用了罗姆的EcoSiC™;科索3.5kW输出的AC/DC电源单元,罗姆也深度参与其中。围绕自身产品布局,罗姆正为攻克AI数据中心的功耗难题提供切实可行的策略。
261
