与非网 10 月 21 日讯,3D 图形显卡在 1999 年 NVIDIA 公司推出 GeForce 256 时开始了其首次变革,这种硬件光影转换技术,极大的提高了计算机的图像显示性能,对游戏领域产生了重要的革命意义,同时也带给了用户极高的画面真实感。

 

当前,图形处理器已经无处不在,GPU 不再仅仅用于图形应用,而是被广泛用于密集计算操作的应用程序,包括人工智能、实时识别和自动驾驶等领域中。

 

就在 2020 年 9 月 2 日凌晨,NVIDIA 发布了 RTX30 系列显卡,分别为 RTX3070、RTX3080 和 RTX3090,据悉,3070 的性能比 2080 更强,价格确更加便宜,3080 的性能是 2080 的两倍,价格却和 2080 一样,而 3090 则支持 8K 60 帧光线追踪。

 

而随着人工智能芯片的兴起,不仅仅是各种人工智能训练需要借助于 NVIDIA 的图形显卡,NVIDIA 也在尝试将人工智能技术应用在 GPU 图形处理单元中。在 18 年,NVIDIA 发布了一款全新的 AI 芯片,它将价值 10000 美元的性能,塞进了一个售价仅为 1299 美元的小盒子,30W 功耗就可以与 1 万美元的工作站媲美。

 

无疑,这样的技术对于 AI 芯片的功耗的要求非常高,因此需要电源控制器来最小化 AI 芯片的功率。为达此目的,NVIDIA 在 2020 年 2 月 13 日发明了一项名为“指令和机器学习的能量特征有效地操作处理系统的技术”的发明专利(公开号:US 2020/0050920 A1),申请人为 NVIDIA 公司。

 

根据该专利目前公开的资料,让我们一起来看看这项 AI 芯片的动态功率控制技术吧。

 

图源:NVIDIA

 

如上图,为该专利中发明的 AI 芯片中主动电源管理控制系统的示意图,系统 100 中包含有多个 GPU(102),这些 GPU 通过数字通信总线与其他部件互相通信。在供电方面,这些 GPU 由配电网 110 供电,电源管理单元 140 监视着配电网供给的电流,同时电源管理单元接受由并行处理器 116 发送的功率控制指令。

 

基于 GPU 当前的工作功率以及处理器所发送的信号,电源管理单元可以预测处理器在未来时段所需要的电量,并控制提供给 GPU 的电压,以便于为 GPU 提供适当的功率。这样不仅可以保证 GPU 发挥稳定的性能,同时也可以控制 GPU 的功耗,更重要的是,通过预先在需要高功率的时段来限制其功率,可以避免出现电流过载的情况,否则可能导致电路损坏或者电源过热。

 

由此看来,电源管理模块的预测工作是十分重要的,在 NVIDIA 的方案中,使用基于硬件的深度学习加速器对于深度神经网络进行加速,从而对处理器的功耗进行预测。

 

图源:NVIDIA

 

如上图,为预测 GPU 功率的功率控制技术流程图,首先,输入功率监视器采用 ADC(数模转换芯片)来对于提供给 GPU 的电源进行采样,采样包括输入的电流以及电压,并将采样结果转换为数字信号输出。

 

其次,并行处理器接收预测功率信号的指令,这样可以确定预测的 GPU 功率与当前功率之间的差值,在确定误差之前,需要对预测功率进行缩放,以使其与当前功率处于正常的比例之中。

 

这种操作基于深度学习的方法,来更新自适应 PID 控制器,因为并行处理器的工作负载可以在短时间尺度上变化,因此,处理器可以主动控制输入到 GPU 的电源,并根据并行处理器中的工作负载变化来优化处理器的性能和功耗。

 

图源:NVIDIA

 

如上图,为这种具有学习机制的实现主动电源管理技术的电路示意图,其中电路 400 包括 ADC(118)、滤波和缩放器电路 420、状态向量寄存器 430、PID 控制器 440、电压控制器 450 以及学习系统 460。

 

该专利中特别提及,虽然处理器可以通过对于指令进行解析,来估计是否需要更高或者更小的功率,但是处理器可能并不知道通过执行这种指定的指令具体需要消耗多少功率。

 

这就像一个长跑运动员,他可能大概知道在半程马拉松比赛中可能会消耗多少卡路里的能量,但是通常无法预测小段路途中的具体卡路里能量消耗,因为具体的能量消耗与太多的因素关联,例如环境条件、温度、实际速度以及自身体重等的变化。

 

所以,具体的电源使用情况还是取决于处理器的软件指令的特定顺序,尽管处理器可以预估消耗的功耗,并对 GPU 的功率进行大致的调整,但是由于制造工艺以及不同的计算任务,因此并不能精准的进行功耗控制。

 

以上就是 NVIDIA 发明的基于人工智能的芯片功耗控制系统,这种具有主动电源管理系统的 GPU 智能芯片,在保证芯片性能的前提下具有更高的可靠性,因此可用于需要高度可靠性的计算环境,例如:数据种心、服务器环境等。此外,在目前较为火热的智能驾驶领域中,这种方案不仅可以避免电流因为瞬间的下降而影响自动驾驶的通信信号,而且还可以通过实现更快的功率管理响应来改善车辆的功耗消耗。