GPU虚拟化大势下，英伟达主场作战加速落地

AI当前落地，最关键的是什么？

企业都在探索通过基础架构的升级来满足AI应用需求，甚至不惜重金引入专业的数据科学家、AI研究人员。但是，门槛仍然存在。企业在部署和管理AI应用时，面对不同工作负载或是大规模AI模型部署时，开发周期长、对开发人员/IT运维人员的技术能力要求高，是普遍的挑战。也就是说，运营成本、易用性、对不同场景的适配能力——成为当前AI落地企业基础设施应用最主要的挑战。

在AI落地中，英伟达风头正劲，特别是在数据中心领域，AI和高性能计算（HPC）的发展，推动了GPU在超大规模云和大型企业基础架构领域的成功。不过，除此之外，虚拟桌面基础设施（VDI）应用所带来的虚拟化GPU市场也正在成为英伟达营收的重要驱动。

GPU虚拟化变革席卷数据中心

为了打造一个巨无霸的计算平台公司，英伟达除了在硬件方面不断创新，在系统软件优化、顶层应用程序堆栈以及软件生态系统的打造方面也是不遗余力。由虚拟化技术所带来的算力资源可分配、可调度，让应用效果立竿见影，也有望使虚拟化GPU技术加速走向规模应用。

VMware 是戴尔旗下的软件公司，提供云计算和虚拟化软件和服务，也是英伟达在企业端到端AI平台方面的重要合作伙伴。近年来，两家公司正在广泛的技术层面实现兼容，通过将VMware的数据中心软件和英伟达的GPU芯片、软件实现兼容，降低企业级AI工作负载的应用门槛。

今日，英伟达与VMware联合发布了AI就绪型企业级平台，这一更新主要包括：英伟达的AI Enterprise软件套件和VMware的 vSphere 7 Update 2，前者可以在后者环境中运行并进行AI应用优化，对于数十万家使用vSphere实现计算虚拟化的企业而言，这一组合为他们加速CUDA应用、AI框架、模型和SDK实现了扩展性、多节点性能和兼容性。

这一合作可以说是业内首创，企业中AI的直接实施者和应用者都有受益：AI研究人员、数据科学家和开发者获得了成功交付AI项目所需的软件；IT专业人员则能够使用他们最熟悉的大规模数据中心管理工具为AI提供支持。

为什么需要虚拟GPU？

企业端对虚拟GPU的需求比以往任何时候都强烈。

一方面，工作环境向复杂数字化和图形密集化发展的趋势只会不断加速，通过对数据中心GPU进行虚拟化，用户可在多个虚拟机中共享该GPU，这大大提高了应用程序和桌面的性能，并支持企业构建虚拟桌面基础架构(VDI)，从而在整个企业范围内经济高效地扩展性能。

另一方面，疫情使得异地办公的员工比以往任何时候都多，他们需要通过各种设备远程访问并处理大型数据集，工作内容不同，所需要的GPU性能支持也不同，通过虚拟GPU软件许可能够满足多种用例的需求，并确保信息安全。IT管理人员能够集中管理资源，而无需在固定的工作位置为单独的工作站提供支持，也可以根据项目和应用的需求灵活分配用户数量。

对于传统的企业基础设备来说，例如台式电脑、笔记本电脑或服务器等，通常使用GPU执行庞大、复杂的运算工作（运行3D应用程序、视频直播等）。但是对于远程办公的专业人员来说，GPU与实体设备绑定会限制移动性和灵活性，许多远程工作的员工，可能并没有性能、储存容量都非常强大的设备，所以需要把应用程序、甚至桌面都推到云端及虚拟化产品上。

这就好比微信小程序，尽管智能手机已经非常普及了，但是硬件配置千差万别，小程序对于存储能力不是很强的手机，带来的体验改善是显而易见的。通过将应用程序推到云端，在手机上虚拟化一个界面，通过小程序连网就可以使用，而无需在本地安装任何APP。

现在的数据中心应用中，GPU正在越来越多为AI、深度学习和分析提供支持。由于工作负载的规模很大，一部分处理将在数据中心内部进行，还有一些在云中进行，并在它们之间不断迭代。

将GPU虚拟化，可以帮助分担服务器负载，提高应用程序的性能表现，适用于更多种类型的用户。也可以在多个虚拟机之间共享和分配虚拟GPU，从而允许任何工作流、设备或任意办公地点创建软件定义的GPU加速。对于企业来说，可以更为经济高效地将性能扩展到所有员工。

不过，归根结底，驱动虚拟GPU运行的是软件，也直接决定了用户的使用体验——这是英伟达和VMware为什么不断在虚拟化软件深入合作的原因。

强强联合解决混合云不同AI工作负载的开发和部署难题

NVIDIA AI Enterprise是一款经过认证的端到端套件，包含了英伟达的关键AI技术、应用及企业支持服务，它可以在VMware Cloud Foundation上运行的虚拟化数据中心中快速部署、管理和扩展AI工作负载。

同时，英伟达与VMware一起将vSphere打造成目前唯一一款通过多实例 GPU（MIG）技术、可为实时迁移提供虚拟机监视器支持的计算虚拟化软件。

凭借在vSphere上运行NVIDIA AI Enterprise，以往在管理运维中的难题、安全问题或是AI专用系统孤岛等问题得以解决，降低了部署shadow AI（即数据科学家和机器学习工程师在IT生态系统之外采购资源）的风险。

NVIDIA AI Enterprise是一款经过认证的端到端套件

除了完整的企业级AI套件，可扩展多节点虚拟化AI性能是该软件平台的一大亮点。

在实际的应用中，由于AI工作负载规模不一，对数据的要求也不同。有些需要处理图像，例如实时流量报告系统、网上购物推荐系统等；而另一些则基于文本，比如由对话式AI驱动的客户服务支持系统等。

此外，训练AI模型需要使用的数据量也不相同，有的可能非常庞大，需要在多个节点的多个GPU上扩展性能；而部署模型上运行推理所需的计算资源一般较少，并且可能不需要用到整个GPU的性能。

通过MIG（Multi-Instance GPU）技术，每个A100 GPU可以在硬件层面被分割成多至7个实例，从而最大限度地提高各种规模工作负载的效率。AI工作负载可以扩展到多个节点，即便是具有完整GPU虚拟化的大型深度学习训练模型也可以在VMware Cloud Foundation上运行。NVIDIA AI Enterprise使虚拟工作负载能够在vSphere上以接近裸金属的性能运行，并通过NVIDIA A100 GPU在AI和数据科学领域获得突破性性能。

用于 vSphere的NVIDIA AI Enterprise使分布式深度学习训练可线性扩展至多个节点，并提供与裸机相同的性能。

这一合作意味着，数十万家使用vSphere实现计算虚拟化的企业IT专业人员，可以使用其大型数据中心和混合云环境的管理工具为AI提供支持。NVIDIA软件套件可在vSphere上提供可扩展、多节点AI应用性能，与裸金属服务器无异。

据NVIDIA副总裁兼企业及边缘计算总经理Justin Boitano介绍：“ NVIDIA AI Enterprise使客户能够将AI模型的开发时间从80周缩短到8周。现在，客户能够在VMware vSphere上部署和管理高级AI应用，并且像在裸机上一样获得可扩展的加速计算性能。”

据了解，目前获得NVIDIA认证系统认证的服务器包括戴尔科技、新华三、慧与、联想、浪潮和超微等高容量服务器，获得NVIDIA AI Enterprise许可证的vSphere客户都可以直接获得英伟达的客户支持。制造、物流、金融服务、零售和医疗健康等关键行业，得以进一步降低AI的应用门槛，从而优化业务流程、提升效率。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
GA355DR7GF472KW01L	1	Murata Manufacturing Co Ltd	Ceramic Capacitor, Multilayer, Ceramic, 10% +Tol, 10% -Tol, X7R, 15% TC, 0.0047uF, Surface Mount, 2220, CHIP, ROHS COMPLIANT	ECAD模型下载ECAD模型	$1.49	查看
CRCW06030000ZSTA	1	Vishay Intertechnologies	Fixed Resistor, Metal Glaze/thick Film, 0.1W, 0ohm, Surface Mount, 0603, CHIP, HALOGEN FREE	ECAD模型下载ECAD模型	$0.17	查看
104MACQRL150	1	Quantic Paktron	RC Network, Bussed, 0.5W, 150ohm, 0.1uF, Through Hole Mount, 2 Pins, RADIAL LEADED, ROHS COMPLIANT		$12.73	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

GA355DR7GF472KW01L

Murata Manufacturing Co Ltd

Ceramic Capacitor, Multilayer, Ceramic, 10% +Tol, 10% -Tol, X7R, 15% TC, 0.0047uF, Surface Mount, 2220, CHIP, ROHS COMPLIANT