英伟达要在大数据市场搞事情:新的GPU加速技术了解一下

2019-08-14 08:53:11 来源:EEFOCUS
标签:

近日,英伟达推出了一项名为GPUDirect Storage的新技术,通过这项新功能,GPU可以直接与NVM-Express存储器通信。该技术使用GPUDirect的RDMA工具,将数据从闪存直接传输到GPU的本地内存中,无需主机CPU的参与和系统内存的管理。英伟达这项技术是其扩大在数据科学/机器学习市场应用的战略之一。

 

如果该战略实施成功,英伟达便可以进入另一个快速增长的应用市场中,并在很大程度上淘汰现有市场上的主流选择-CPU。这个市场即基于服务器的数据科学和机器学习市场,年规模在200亿到250亿美元之间,这跟当前超性能计算机和深度学习服务器市场的总体规模大致相当。所以,从本质上来说,英伟达此举是希望在数据中心应用市场中的规模翻倍。

 


 
该扩张策略开始于去年十月份,当时英伟达推出了RAPIDS工具,这是一套开源的工具和库,用于支持基于GPU的分析和机器学习。简单来说,RAPIDS这项工具在Apache Arrow、Spark等数据科学工具链中添加了对GPU加速的支持,旨在将GPU引入大数据企业应用更传统的地盘,到目前为止,这些地盘还在被使用Hadoop和MapReduce这些应用软件的CPU集群掌控着。

 

根据英伟达新任数据科学部门总经理Josh Patterson的说法,RAPIDS涵盖了机器学习的方方面面,包括监督学习、无监督学习和数据处理等。他的这个表态引起了大数据传统企业应用从业者的怀疑。“我认为,人们对RAPIDS在数据处理上的能力存在怀疑。”Patterson告诉记者。

 

但是事实上,GPU越来越大,连接性能越来越好,从应用的角度来看也更加通用了。与此同时,数据分析则变得越来越复杂,工作流程中越来越多地集成了机器学习。现在,使用TB级别规模的数据并需要进行千万亿次计算的应用正在变得越来越普遍。

 

所有这些变化都需要使用可扩展的基础设施。借助于NVLink和NVSwitch,连接在一起的GPU阵列就像一个巨大的计算加速器一样,它们之间的所有本地内存互相共享,并为具体应用提供内存资源。英伟达的这项新技术最初是为DGX架构而设计的,该架构旨在解决规模更大、更复杂的神经网络训练问题。Patterson说,英伟达意识到,这些巨大的虚拟GPU内存可以用于大数据,但是其中的一个瓶颈是如何实现快速存取数据。

 

通常情况下,在采用GPU加速器的系统中,所有的输入输出都会通过主机CPU和系统内存,然后才会被分流到GPU的本地内存中。GPU通常使用“反弹缓冲区”实现这种导流和分流。“反弹缓冲区”设置在系统内存中,数据传输到GPU之前会在系统内存中保存副本。显然,对于需要快速数据流动的大型应用,这种间接式的数据存取方案不可取,因为它引入了额外的通信延迟,还需要保存内存副本,不仅降低了在GPU上运行的应用程序的性能还损耗了主机CPU的计算周期。这就是GPUDirect Storage要解决的问题。

 


 
英伟达声称,使用这项技术可以将IO带宽提高50%,延迟降低3.8倍。NVMe over Fabrics远程存储可以通过互连的存储服务器的共享池容纳数个PB数据,英伟达声称,其新技术可实现比系统内存页面缓存技术更快的访问速度。如果您有一个集成了16个GPU和1.5TB系统内存的DGX-2系统,与未经过优化的版本相比,GPUDirect Storage可以将数据吞吐能力提高8倍。之所以如此,是因为现在可以发挥DGX-2接近200GB/S的IO带宽,如果从主机系统内存再到GPU,带宽则只有50GB/S。这种数据速度的提升将有效提高与IO相关的各种数据分析工作以及需要大量存取文件操作的应用的效率,对传统的HPC也有好处。

 

在这项技术的加持下,原始数据可以直接从存储器加载到GPU的内存中,这意味着GPU也可以用于解压缩和解码,从而减轻CPU在这些任务上的负担。Patterson表示,截止到目前为止,该技术已经支持了包括CSV、Parquet、AVRO、ORC和JSON在内的许多常用数据分析文件格式,同时,未来版本将支持XML、HDF5和ZAR等其他格式。

 

GPUDirect Storage的两项基本技术是远程直接内存访问(RDMA)和NVM-Express(NVMe),特别是NVMe over Fabrics(NVMe-oF)。RDMA封装在GPUDirect的协议中,并已经实现在各种网络适配器中,包括Mellanox NIC。正如我们之前提到的,这项技术可以用于扩展使用NVLink和/或NVSwitch的DGX风格的GPU系统。

 

这项技术同时适用于NVM-Express的本地存储和远程存储(即NVMe-oF)。Patterson指出,当前技术所支持的网络仅限于InfiniBand,对以太网RDMA(RoCE)的支持正在开发过程中,最终可能会支持除Mellanox Technologies之外的所有其它供应商的网络设备。

 

GPUDirect Storage现在还没有向大众普遍公开。下周,英伟达将向一些特定的客户开放一个封闭的alpha版本,并计划于今年11月份发布公开的测试版本。Patterson说,大众版的上市时间定于2020年初,届时,它将做为CUDA工具包的一个组成部分提供。这是Patterson在英伟达数据科学部门总经理岗位上的第一个重大决策,他希望客户提前了解英伟达的这项新技术,以便在考虑部署GPU基础架构时将这项新功能纳入自己的规划中。

 

“在提前告知客户们我们的新动向上,有的时候我认为我们做得还不够好,”Patterson解释道。“企业的行动速度并不像我们想象的那么快,所以这一次我们想提前告知他们这项很快就要成熟的新技术。”

 

同时,英伟达必须继续说服业界,对待数据分析他们是认真的。这意味着,英伟达需要和更多从事存储业务的企业合作,与分析软件供应商合作,以便这些客户们支持通过GPUDirect Storage技术连接自己的存储节点。Patterson表示,他们打算遵循过去将GPU渗透到HPC和深度学习用户中的策略,即提供许多在应用上开源但是保留了CUDA专有技术的多种外延性软件产品。

 

如果一切都按照计划顺利进行,即便不推出任何新硬件,2020年也将是英伟达GPU的一个突破年。“我们真的认为,这项技术将从根本上改变人们对数据科学的看法。”Patterson自信满满地表示。
 

与非网编译内容,未经许可,不得转载!

 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

作者简介
与非网 记者
与非网 记者

电子行业垂直媒体--与非网记者一枚,愿从海量行业资讯中淘得几粒金沙,与你分享!

继续阅读
NLP 研究人员必备知识:3 大原则做好误差分析

尝试分析机器学习模型在什么时候、以什么方式、由于什么原因失效,我们把这称为「误差分析(error analysis)」。

Nvidia 财报下滑引人注目,是否真的面临竞争?

近日,Nvidia发布了财报,财报显示其净利润和营收都出现下滑,尤其是在游戏和数据中心等核心业务,下滑尤其引人注目。同时,黄仁勋表示并不担心亚马逊、谷歌等数据中心客户变成竞争对手。那么,Nvidia是否真正面临竞争?本文将为此做专门解读。

详细对比 CPU 与 GPU,谁能担得了机器深度学习的重任?
详细对比 CPU 与 GPU,谁能担得了机器深度学习的重任?

CPU是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调能力强,计算能力则位于其次。而GPU相当于一个接受CPU调度的“拥有大量计算能力”的员工。

AMD准备好与英伟达展开GPU终极之战
AMD准备好与英伟达展开GPU终极之战

还有一个GPU市场,多年来AMD一直落后于英伟达。不过,就像它在CPU市场对英特尔打了个漂亮的翻身仗一样,AMD这次做足了准备,要改变GPU市场的格局。

数据中心:英伟达的下一个战场

如果你仅仅因为AMD准备明年推出“Navi”GPU,以及英特尔也在开发明年交付的Xe GPU,就期待英伟达很快就会开始谈论它未来用于特斯拉加速计算的“Einstein”GPU,那么你可能得再等一段时间了。英伟达仍有资金推出基于“Turing”和“Volta”架构的特斯拉T4和V100加速器。

更多资讯
华为AI芯片是从什么时候发展起来的?一文读懂华为AI芯片发展史

众所周知,数据、算力和算法,驱动着人工智能的第三次浪潮。面对AI算力需求的爆发式增长,这几年华为在做些什么?看似高深的人工智能(AI)技术,其实已经“润物细无声”地深入大众生活,仅你手中一部华为Mate20手机,就可以实现人脸识别、物体识别、物体检测、图像分割、智能翻译等AI功能

华为AI处理器虽然用了Arm架构,但徐直军表示完全不慌?

与非网8月23日讯,自华为遭受到美国的禁令已经过去了九十多天,但似乎华为并未受到太大的影响,反而是美国帮助华为打了个响亮的广告,就在今天,华为又发布了AI处理器,还表示根本不慌。

将Power指令集开源,IBM 是如何咸鱼翻身的?

这是一个漫长的过程,如果在十年前就这样做,情况可能会更好。但是,随着收购Red Hat后大量注入开源精神,IBM终于迈出了下一步,将其Power系列处理器的指令集体系结构开源。

快速掌握MIPI开发攻略,对接百度人工智能计算卡EdgeBoard

MIPI(移动行业处理器接口)是Mobile Industry Processor Interface的缩写,是MIPI联盟发起的为移动应⽤处理器制定的开放标准。

海思与联发科的“你侬我侬”,谁才能最终亚洲一哥”?

与2018上半年相比,有两家新进入前15名的,分别是Fabless(无晶圆厂的IC设计公司)厂商联发科(MediaTek),其从去年同期的第16位上升到第15位,另一家是IDM厂商索尼,该公司是这15家厂商中唯一实现同比正增长的,排名也上升5位,成为2019上半年第14大半导体供应商,具体如下图所示。