AI当前落地,最关键的是什么?

 

企业都在探索通过基础架构的升级来满足AI应用需求,甚至不惜重金引入专业的数据科学家、AI研究人员。但是,门槛仍然存在。企业在部署和管理AI应用时,面对不同工作负载或是大规模AI模型部署时,开发周期长、对开发人员/IT运维人员的技术能力要求高,是普遍的挑战。也就是说,运营成本、易用性、对不同场景的适配能力——成为当前AI落地企业基础设施应用最主要的挑战。

 

在AI落地中,英伟达风头正劲,特别是在数据中心领域,AI和高性能计算(HPC)的发展,推动了GPU在超大规模云和大型企业基础架构领域的成功。不过,除此之外,虚拟桌面基础设施(VDI)应用所带来的虚拟化GPU市场也正在成为英伟达营收的重要驱动。

 

GPU虚拟化变革席卷数据中心

 

为了打造一个巨无霸的计算平台公司,英伟达除了在硬件方面不断创新,在系统软件优化、顶层应用程序堆栈以及软件生态系统的打造方面也是不遗余力。由虚拟化技术所带来的算力资源可分配、可调度,让应用效果立竿见影,也有望使虚拟化GPU技术加速走向规模应用。

 

VMware 是戴尔旗下的软件公司,提供云计算和虚拟化软件和服务,也是英伟达在企业端到端AI平台方面的重要合作伙伴。近年来,两家公司正在广泛的技术层面实现兼容,通过将VMware的数据中心软件和英伟达的GPU芯片、软件实现兼容,降低企业级AI工作负载的应用门槛。

 

今日,英伟达与VMware联合发布了AI就绪型企业级平台,这一更新主要包括:英伟达的AI Enterprise软件套件和VMware的 vSphere 7 Update 2,前者可以在后者环境中运行并进行AI应用优化,对于数十万家使用vSphere实现计算虚拟化的企业而言,这一组合为他们加速CUDA应用、AI框架、模型和SDK实现了扩展性、多节点性能和兼容性。

 

这一合作可以说是业内首创,企业中AI的直接实施者和应用者都有受益:AI研究人员、数据科学家和开发者获得了成功交付AI项目所需的软件;IT专业人员则能够使用他们最熟悉的大规模数据中心管理工具为AI提供支持。


为什么需要虚拟GPU?

 

企业端对虚拟GPU的需求比以往任何时候都强烈。

 

一方面,工作环境向复杂数字化和图形密集化发展的趋势只会不断加速,通过对数据中心GPU进行虚拟化,用户可在多个虚拟机中共享该GPU,这大大提高了应用程序和桌面的性能,并支持企业构建虚拟桌面基础架构(VDI),从而在整个企业范围内经济高效地扩展性能。

 

另一方面,疫情使得异地办公的员工比以往任何时候都多,他们需要通过各种设备远程访问并处理大型数据集,工作内容不同,所需要的GPU性能支持也不同,通过虚拟GPU软件许可能够满足多种用例的需求,并确保信息安全。IT管理人员能够集中管理资源,而无需在固定的工作位置为单独的工作站提供支持,也可以根据项目和应用的需求灵活分配用户数量。

 

对于传统的企业基础设备来说,例如台式电脑、笔记本电脑或服务器等,通常使用GPU执行庞大、复杂的运算工作(运行3D应用程序、视频直播等)。但是对于远程办公的专业人员来说,GPU与实体设备绑定会限制移动性和灵活性,许多远程工作的员工,可能并没有性能、储存容量都非常强大的设备,所以需要把应用程序、甚至桌面都推到云端及虚拟化产品上。

 

这就好比微信小程序,尽管智能手机已经非常普及了,但是硬件配置千差万别,小程序对于存储能力不是很强的手机,带来的体验改善是显而易见的。通过将应用程序推到云端,在手机上虚拟化一个界面,通过小程序连网就可以使用,而无需在本地安装任何APP。

 

现在的数据中心应用中,GPU正在越来越多为AI、深度学习和分析提供支持。由于工作负载的规模很大,一部分处理将在数据中心内部进行,还有一些在云中进行,并在它们之间不断迭代。

 

将GPU虚拟化,可以帮助分担服务器负载,提高应用程序的性能表现,适用于更多种类型的用户。也可以在多个虚拟机之间共享和分配虚拟GPU,从而允许任何工作流、设备或任意办公地点创建软件定义的GPU加速。对于企业来说,可以更为经济高效地将性能扩展到所有员工。

 

不过,归根结底,驱动虚拟GPU运行的是软件,也直接决定了用户的使用体验——这是英伟达和VMware为什么不断在虚拟化软件深入合作的原因。

 

强强联合解决混合云不同AI工作负载的开发和部署难题

 

NVIDIA AI Enterprise是一款经过认证的端到端套件,包含了英伟达的关键AI技术、应用及企业支持服务,它可以在VMware Cloud Foundation上运行的虚拟化数据中心中快速部署、管理和扩展AI工作负载。

 

同时,英伟达与VMware一起将vSphere打造成目前唯一一款通过多实例 GPU(MIG)技术、可为实时迁移提供虚拟机监视器支持的计算虚拟化软件。

 

凭借在vSphere上运行NVIDIA AI Enterprise,以往在管理运维中的难题、安全问题或是AI专用系统孤岛等问题得以解决,降低了部署shadow AI(即数据科学家和机器学习工程师在IT生态系统之外采购资源)的风险。

 


 NVIDIA AI Enterprise是一款经过认证的端到端套件

 

除了完整的企业级AI套件,可扩展多节点虚拟化AI性能是该软件平台的一大亮点。

 

在实际的应用中,由于AI工作负载规模不一,对数据的要求也不同。有些需要处理图像,例如实时流量报告系统、网上购物推荐系统等;而另一些则基于文本,比如由对话式AI驱动的客户服务支持系统等。

 

此外,训练AI模型需要使用的数据量也不相同,有的可能非常庞大,需要在多个节点的多个GPU上扩展性能;而部署模型上运行推理所需的计算资源一般较少,并且可能不需要用到整个GPU的性能。

 

通过MIG(Multi-Instance GPU)技术,每个A100 GPU可以在硬件层面被分割成多至7个实例,从而最大限度地提高各种规模工作负载的效率。AI工作负载可以扩展到多个节点,即便是具有完整GPU虚拟化的大型深度学习训练模型也可以在VMware Cloud Foundation上运行。NVIDIA AI Enterprise使虚拟工作负载能够在vSphere上以接近裸金属的性能运行,并通过NVIDIA A100 GPU在AI和数据科学领域获得突破性性能。

 


 用于 vSphere的NVIDIA AI Enterprise使分布式深度学习训练可线性扩展至多个节点,并提供与裸机相同的性能。

 

这一合作意味着,数十万家使用vSphere实现计算虚拟化的企业IT专业人员,可以使用其大型数据中心和混合云环境的管理工具为AI提供支持。NVIDIA软件套件可在vSphere上提供可扩展、多节点AI应用性能,与裸金属服务器无异。

 

据NVIDIA副总裁兼企业及边缘计算总经理Justin Boitano介绍:“ NVIDIA AI Enterprise使客户能够将AI模型的开发时间从80周缩短到8周。现在,客户能够在VMware vSphere上部署和管理高级AI应用,并且像在裸机上一样获得可扩展的加速计算性能。”

 

据了解,目前获得NVIDIA认证系统认证的服务器包括戴尔科技、新华三、慧与、联想、浪潮和超微等高容量服务器,获得NVIDIA AI Enterprise许可证的vSphere客户都可以直接获得英伟达的客户支持。制造、物流、金融服务、零售和医疗健康等关键行业,得以进一步降低AI的应用门槛,从而优化业务流程、提升效率。