由于大部分繁重的 AI 任务都是在云端完成的,因此人们很容易忘记 AI 需要大量的计算资源及电力。


马萨诸塞州大学阿默斯特分校去年的一项研究发现,训练一个大型自然语言处理(BERT)AI 模型因消耗电力而产生的二氧化碳(CO2),相当于跨大西洋往返航班对每个乘客所产生的 CO2。那只是一个模型,虽然是变换网络,但只需训练一次。开发过程中通常会对模型进行多次调整和反复训练。如果将神经网络结构搜索(一种使用 AI 来调整模型的 AutoML 技术)加入一个大小适中的转换器中,其 CO2 总排放量将猛升到几乎与 5 辆美国汽车的终身排放量相同。

 

图 1:训练一个大型的自然语言处理 AI 模型时,其消耗电力所产生的 CO2 相当于跨大西洋往返航班对每个乘客所产生的 CO2。


AI 加速器有望提高 AI 处理的计算效率。随着 AI 处理量的不断增加,数据中心将会采用这些新的专用加速器。


但是 AI 加速器可以节省能源吗?究竟是总的用电量下降了,还是数据中心只不过利用同样的电力实现了更多的计算?


AI 训练策略
“AI 计算使用的能量多少是由几个因素决定的。”IBM Cognitive Systems 技术计算副总裁 David Turek 解释说,“采取什么样的策略来训练模型,会影响所消耗的能量。每瓦特的计算量并不是特别有用的指标,因为有很多种不同的方法可以降低总能耗。”


他补充说,整个系统架构和应用环境决定了实际上需要多少能源。“从模型训练到模型部署,计算能力的不同级别直接影响其基础架构,从而直接影响所消耗的能源。”


人们通常认为,AI 系统中一次只训练一个模型,然后将其部署到其他地方进行推理。但事实并非如此,典型的 AI 系统会多次训练很多模型,并且可能同时在多个模型上进行推理以获得最佳结果。


完成部署后,有时会使用联邦学习(federated learning)之类的技术,在边缘而不是回到数据中心更新增量模型。需要消耗多少能量取决于在边缘进行什么处理。
换句话说,训练特定的 AI 模型所消耗的能量并不是直接就可以确定的。“但数据中心的基础设施是固定的,因此调整工作流程是节省能源的最好方法。”Turek 说。


可能的方法有:将 AI 模型与传统的高性能计算融合,以减少所需的总计算量;缩短完成一项工作所花的时间,以减少 GPU 等高能耗 AI 加速器硬件的使用;避免在数据中心使用联邦学习之类的技术重复训练。


Turek 说:“这是从管理的角度来聪明地安排工作流程,利用最佳的方法为现有系统分配可用的能源。通过能源预算和能源消耗,运营商可以在其硬件基础架构上进行调度分配。”


在更高的温度下运行
服务器制造商 Supermicro 去年年底发布的数据中心环境实践年度调查报告显示,能源效率仍然有机会提高。Supermicro 营销和网络安全副总裁 Michael McNerney 认为,这些机会正在流失。


McNerney 说:“我们认为一些基本的最佳实践可以为客户带来很大价值。其中的一条是,相比传统的数据中心环境,我们今天构建的系统可以在更高的温度下运行,许多长期从事数据中心运营的人却没有意识到这一点。”


在目前的设计中,不再需要将设备冷却到 23~25°C 来确保其性能和可靠性。一些“绿色”数据中心处于极端温度下,即便是很小的变化,例如减少空调的使用,也可以节省能源。

 

 

图 2:现代服务器和基础设施可以在更高的温度下运行,并且切换为多节点系统,从而降低了总能耗。


多节点系统是节省能源的另一种方法,其中多台服务器在共享的基础架构上运行。这种配置减少了所需的大型电源和风扇数量。多节点系统具有更高的能源效率,可以在更高的温度下运行,并提供更高的功率密度。


Supermicro 的调查还发现,目前每个机架的平均功率密度为 15kW,服务器进气入口温度为 23.5°C,服务器每 4.1 年更换一次。而在采用高度优化绿色设计的数据中心(占受访者的 12%),每个机架的功率密度超过 25kW,平均入口温度为 26.5°C,服务器每 2 至 3 年更换一次。因此,Supermicro 得出结论,大多数数据中心仍需继续优化能效。


令人惊讶的是,大多数受访者并不认为能耗是成功的关键指标。“我们已经看到,公司的设施预算与硬件及系统的资产购置成本是分开的,它们与人力成本也是分开的。我认为人们很清楚地知道这一点,但是并不会进行综合考虑和优化。”McNerney 说。


“较大的数据中心更了解总运营成本,但若增加资产购置预算,能源预算就会减少,人们有时很难把这两者关联起来。”


McNerneyt 认为整个数据中心的功耗并不会很快下降。他说:“长期的发展趋势是,一些在线服务的能耗会随着效率的提升而改善,然而随着 5G 和 AI 的逐渐普及,总体功耗仍将继续增加。”


电费与能耗
英伟达加速计算产品管理总监 Paresh Kharya 表示,数据中心运营商希望全面提高能效,因为电费占其运营成本的 25%。


能源使用效率(PUE)是一项广泛使用的用来衡量能源节约的指标,表示计算所消耗的能源与数据中心基础设施消耗的总能源之比。目标是 PUE 等级为 1。


Kharya 说:“多年来,超大规模数据中心的 PUE 接近 1 或 1.1,非常高效。企业数据中心也取得了很大进步,大多数情况下,其 PUE 等级已经从大于 2 降到了远远低于 2。”


超大规模数据中心采用优化的机架和散热设计,可以大规模运行,其优化和使用复杂技术的能力是大多数企业数据中心不具备的。Kharya 表示:“许多企业已开始采用这些创新技术,能源效率得到了显著提高。”


由于各家公司关注的是电费而不是功耗,所以 Kharya 认为,执行任务所花费的时间是一个重要因素。“例如,在一台只有 CPU 的服务器上训练 ResNet-50 模型的图像识别可能需要长达三周的时间,而配备英伟达 V100 GPU 的服务器可以在一天之内完成这一任务。”他补充道。


“每台配备英伟达 GPU 的服务器比配备 CPU 的服务器消耗的能源更多,但它完成任务的时间将大大缩短。因此,如果使用 GPU 加速器,用于完成 AI 处理的整体能耗将降低至原来的 20 到 25 分之一。”Kharya 强调。


了解数据中心工作负荷
英特尔数据平台营销总经理 Allyson Klein 表示,数据中心运营商会尽量确保所有系统高效运行,让昂贵的基础架构提供最大的计算能力。


“数据中心运营商的主要目标是使基础架构的性能达到最好。”Klein 说,“性能高低取决于系统和机架的级别,同时还需要整个数据中心协同工作,使每瓦性能达到最高。”


因此,为了部署合适的基础架构来满足性能和能耗要求,全面了解数据中心的工作负荷非常重要。最理想的结果是计算容量更大,功耗更低,并且不会闲置基础设施而白白消耗电力。


究竟是在 CPU 中集成加速功能还是采用分立的加速器,这通常需要进行权衡。Klein 说:“加速器会增加功耗,但如果它一直工作,则整体效率更高。如果加速器完成大量工作,利用率高,在客户愿意投资基础设施的情况下,使用分立的加速器是较好的方法。如果不能一直使用加速器,则采用 CPU 方法可能是更好的选择,因为加速器经常会空闲,耗电却不执行任何任务。”


Klein 表示,在大多数部署中,AI 只是数十万种不同工作负荷的一种。尽管英特尔提供了 CPU 和专用 AI 加速器(通过 Habana Labs),但由于工作负荷种类很多,从功耗和投资角度来看,Xeon Scalable(CPU)平台可以说是最高效的产品。


Klein 说:“英特尔的 AI 策略建立在 Xeon Scalable 处理器的基础之上,Xeon Scalable 内部做了 AI 优化,并针对机器学习和深度学习进行了大量软件优化。”


提高效率
尽管 GPU 等 AI 加速器能耗很大,但进行 AI 处理时,它们的高计算效率可以降低总能耗。AI 处理在数据中心所占比例越来越高,但数据中心日常处理的负荷种类仍然多种多样。


加速器使 AI 处理受益最大,CPU 则继续在超大规模和企业数据中心市场赢得席位,因为 CPU 应用更加灵活。随着 AI 应用的不断扩大,以及新的 5G 应用产生更多的非结构化数据,数据中心的能耗不太可能很快下降。