英伟达要在大数据市场搞事情：新的GPU加速技术了解一下

近日，英伟达推出了一项名为 GPUDirect Storage 的新技术，通过这项新功能，GPU 可以直接与 NVM-Express 存储器通信。该技术使用 GPUDirect 的 RDMA 工具，将数据从闪存直接传输到 GPU 的本地内存中，无需主机 CPU 的参与和系统内存的管理。英伟达这项技术是其扩大在数据科学 / 机器学习市场应用的战略之一。

如果该战略实施成功，英伟达便可以进入另一个快速增长的应用市场中，并在很大程度上淘汰现有市场上的主流选择 -CPU。这个市场即基于服务器的数据科学和机器学习市场，年规模在 200 亿到 250 亿美元之间，这跟当前超性能计算机和深度学习服务器市场的总体规模大致相当。所以，从本质上来说，英伟达此举是希望在数据中心应用市场中的规模翻倍。

该扩张策略开始于去年十月份，当时英伟达推出了 RAPIDS 工具，这是一套开源的工具和库，用于支持基于 GPU 的分析和机器学习。简单来说，RAPIDS 这项工具在 Apache Arrow、Spark 等数据科学工具链中添加了对 GPU 加速的支持，旨在将 GPU 引入大数据企业应用更传统的地盘，到目前为止，这些地盘还在被使用 Hadoop 和 MapReduce 这些应用软件的 CPU 集群掌控着。

根据英伟达新任数据科学部门总经理 Josh Patterson 的说法，RAPIDS 涵盖了机器学习的方方面面，包括监督学习、无监督学习和数据处理等。他的这个表态引起了大数据传统企业应用从业者的怀疑。“我认为，人们对 RAPIDS 在数据处理上的能力存在怀疑。”Patterson 告诉记者。

但是事实上，GPU 越来越大，连接性能越来越好，从应用的角度来看也更加通用了。与此同时，数据分析则变得越来越复杂，工作流程中越来越多地集成了机器学习。现在，使用 TB 级别规模的数据并需要进行千万亿次计算的应用正在变得越来越普遍。

所有这些变化都需要使用可扩展的基础设施。借助于 NVLink 和 NVSwitch，连接在一起的 GPU 阵列就像一个巨大的计算加速器一样，它们之间的所有本地内存互相共享，并为具体应用提供内存资源。英伟达的这项新技术最初是为 DGX 架构而设计的，该架构旨在解决规模更大、更复杂的神经网络训练问题。Patterson 说，英伟达意识到，这些巨大的虚拟 GPU 内存可以用于大数据，但是其中的一个瓶颈是如何实现快速存取数据。

通常情况下，在采用 GPU 加速器的系统中，所有的输入输出都会通过主机 CPU 和系统内存，然后才会被分流到 GPU 的本地内存中。GPU 通常使用“反弹缓冲区”实现这种导流和分流。“反弹缓冲区”设置在系统内存中，数据传输到 GPU 之前会在系统内存中保存副本。显然，对于需要快速数据流动的大型应用，这种间接式的数据存取方案不可取，因为它引入了额外的通信延迟，还需要保存内存副本，不仅降低了在 GPU 上运行的应用程序的性能还损耗了主机 CPU 的计算周期。这就是 GPUDirect Storage 要解决的问题。

英伟达声称，使用这项技术可以将 IO 带宽提高 50%，延迟降低 3.8 倍。NVMe over Fabrics 远程存储可以通过互连的存储服务器的共享池容纳数个 PB 数据，英伟达声称，其新技术可实现比系统内存页面缓存技术更快的访问速度。如果您有一个集成了 16 个 GPU 和 1.5TB 系统内存的 DGX-2 系统，与未经过优化的版本相比，GPUDirect Storage 可以将数据吞吐能力提高 8 倍。之所以如此，是因为现在可以发挥 DGX-2 接近 200GB/S 的 IO 带宽，如果从主机系统内存再到 GPU，带宽则只有 50GB/S。这种数据速度的提升将有效提高与 IO 相关的各种数据分析工作以及需要大量存取文件操作的应用的效率，对传统的 HPC 也有好处。

在这项技术的加持下，原始数据可以直接从存储器加载到 GPU 的内存中，这意味着 GPU 也可以用于解压缩和解码，从而减轻 CPU 在这些任务上的负担。Patterson 表示，截止到目前为止，该技术已经支持了包括 CSV、Parquet、AVRO、ORC 和 JSON 在内的许多常用数据分析文件格式，同时，未来版本将支持 XML、HDF5 和 ZAR 等其他格式。

GPUDirect Storage 的两项基本技术是远程直接内存访问（RDMA）和 NVM-Express（NVMe），特别是 NVMe over Fabrics（NVMe-oF）。RDMA 封装在 GPUDirect 的协议中，并已经实现在各种网络适配器中，包括 Mellanox NIC。正如我们之前提到的，这项技术可以用于扩展使用 NVLink 和 / 或 NVSwitch 的 DGX 风格的 GPU 系统。

这项技术同时适用于 NVM-Express 的本地存储和远程存储（即 NVMe-oF）。Patterson 指出，当前技术所支持的网络仅限于 InfiniBand，对以太网 RDMA（RoCE）的支持正在开发过程中，最终可能会支持除 Mellanox Technologies 之外的所有其它供应商的网络设备。

GPUDirect Storage 现在还没有向大众普遍公开。下周，英伟达将向一些特定的客户开放一个封闭的 alpha 版本，并计划于今年 11 月份发布公开的测试版本。Patterson 说，大众版的上市时间定于 2020 年初，届时，它将做为 CUDA 工具包的一个组成部分提供。这是 Patterson 在英伟达数据科学部门总经理岗位上的第一个重大决策，他希望客户提前了解英伟达的这项新技术，以便在考虑部署 GPU 基础架构时将这项新功能纳入自己的规划中。

“在提前告知客户们我们的新动向上，有的时候我认为我们做得还不够好，”Patterson 解释道。“企业的行动速度并不像我们想象的那么快，所以这一次我们想提前告知他们这项很快就要成熟的新技术。”

同时，英伟达必须继续说服业界，对待数据分析他们是认真的。这意味着，英伟达需要和更多从事存储业务的企业合作，与分析软件供应商合作，以便这些客户们支持通过 GPUDirect Storage 技术连接自己的存储节点。Patterson 表示，他们打算遵循过去将 GPU 渗透到 HPC 和深度学习用户中的策略，即提供许多在应用上开源但是保留了 CUDA 专有技术的多种外延性软件产品。

如果一切都按照计划顺利进行，即便不推出任何新硬件，2020 年也将是英伟达 GPU 的一个突破年。“我们真的认为，这项技术将从根本上改变人们对数据科学的看法。”Patterson 自信满满地表示。

与非网编译内容，未经许可，不得转载！