AI很好,但如何才能深入应用于不同行业?AI落地,当前仍然面临着最后一公里的难题。业界普遍认为:数据结合难、业务价值不佳、数据科学人才稀缺、算力成本负担重,是企业落地AI最常见的四大阻力。缩短最后一公里、实现更大量的合作,核心其实是降低门槛、提高效率。

 

打个比方,假设企业用AI的最终目标是做一个大蛋糕,他需要从种小麦开始吗?当然不是。让企业找到现成的源头,获取面粉、黄油、鸡蛋、模具这些现成材料,才是更省事省力的选择。

 

英伟达正在携手生态伙伴提供这些“现成的材料”。英伟达刚刚发起的全球首个NVIDIA认证系统,意在通过坚实的技术基础和广泛的生态合作,进一步推进AI在各行各业的泛化能力。

 

AI基础设施需要一场变革

 

根据Gartner数据,目前37%的企业机构在生产中使用了AI,预计到2024年这一比例将翻倍至75%。AI是这个时代最强大的技术,但是,它需要新一代经过调整和测试的计算机来推动其发展,也就是说,来自于基础设施的变革迫在眉睫。

 

英伟达NGC产品管理总监Adel El-Hallak告诉与非网,AI基础设施的变革主要来自于三大颠覆力:爆发的数据量、更大更复杂的AI模型、以及业界对于更好的产品和服务的追求。

 


 一方面,企业试图从不断增加的数据中,总结出隐藏的战略洞察。例如,沃尔玛每小时要处理超过2.5PB的数据,阿里巴巴正在利用AI洞察数据、优化搜索排名和产品推荐。另一方面,短短5年内,筛选这些数据的AI模型规模增长了近3万倍,使用这些数据的模型和工作负载的多样性也在不断扩大。

 

日益增加的数据量、不断扩大的AI数据筛选模型,导致数据中心和网络边缘的网络流量呈指数级增长。企业如何才能获得更好的产品和服务?一个安全、可靠、高速并且能够有效扩展的基础设施是关键。

 

解锁大量应用的关键

 

Adel El-Hallak以计算机视觉围绕图像分类、目标检测等应用的兴起谈到,AI模型解锁了各种各样的不同用例,提供了更好的产品和服务,但模型也变得越来越复杂和庞大。不过,这是一个良性循环,当我们在使用这些产品和服务的同时,也正在生成数据,利用这些数据对模型进行再训练,能够进一步改进现有产品和服务。

 

不论是从端侧到数据中心,还是从智能网络接入的海量应用,AI基础设施的四大支柱始终是:功能、性能、可扩展性、安全性。基本功能是最根本的要素;性能特征取决于具体用例,是系统的重要指标;可扩展性决定了系统应对不同场景的伸缩能力;安全的数据是优势,必须确保从数据、平台到应用层的所有安全。
 

 

为了让其AI技术广泛落地使用,服务器OEM成为英伟达一个很大的突破口。或者说,服务器OEM生态系统的参与让英伟达更加兴奋。

 

从早期集中在训练场景,发展到在推理场景的大规模应用阶段,AI最终将成为一种基础能力。在这个过程中,服务器始终是重要环节。一方面,AI 算法需要大量的数据和算力来完成任务,依靠云服务来执行计算;另一方面,在提供智能云体验上,由 AI 驱动的解决方案能帮助企业在 AI 时代快速占领制高点。

 

据Adel El-Hallak介绍,NVIDIA认证系统提供能够企业部署AI所需的性能、可编程性和安全吞吐量。这些系统既结合了基于NVIDIA Ampere架构的GPU算力,还有安全、高速的NVIDIA Mellanox网络。此外,还有包括英伟达CUDA和NGC Catalog的整个软件堆栈的支持。


 

NGC被认为是这一认证系统背后真正的宝藏。Adel El-Hallak解释,当一个企业购买了NVIDIA认证系统后,NGC目录能够为他们解锁各种各样的应用程序。

 

NGC目录是适用于深度学习、机器学习和高性能计算的GPU优化型软件中心,包括针对医疗健康的Clara、针对机器人的Isaac等,这些软件套件可以帮助企业快速进入某个垂直细分市场。此外,它还包含帮助企业在推荐系统Merlin和智能视频分析Metropolis等新兴用例中起步的框架。通过NVIDIA认证系统,企业能够使用这些强大的算力硬件和适用范围广泛的软件。


 

如何通过NVIDIA测试认证?

 

具体而言,NVIDIA认证系统必须通过四方面测试:深度学习训练和推理、机器学习算法、智能视频分析、网络和存储卸载。

 

为了通过认证,服务器系统必须接受广泛的工作负载测试,涵盖从需要多个计算节点的工作到只需要使用单个GPU部分性能的任务等。这些测试也都是基于现实世界中的用例,使用的是NGC目录中常用的AI框架和容器。

 

英伟达这项开创先河的认证计划宣布的同时,全球首批加速服务器通过也通过了这一认证测试:戴尔科技、技嘉、慧与、浪潮和超微的认证服务器均于1月27日开始供货。首批使用NVIDIA A100 Tensor Core GPU的系统包括:

 

戴尔EMC PowerEdge R7525和R740机架服务器

技嘉R281-G30、R282-Z96、G242-Z11、G482-Z54、G492-Z51系统

慧与 Apollo 6500 Gen10系统和慧与 ProLiant DL380 Gen10服务器

浪潮 NF5488A5

超微A+服务器AS-4124GS-TNR和AS-2124GQ-NART

 

这些产品都带有NVIDIA认证系统标识,可以处理机器学习、数据分析等领域最棘手的任务。
 

写在最后

 

在AI深度化、广度化的应用过程中,不止一家企业说“落地难”,一是规模化普及时数据科学人才的短缺,二是多维行业数据、多维融合的困难。更何况,现在还有绝大部分场景需求还未释放出来,人才短缺是主要根源。

 

英伟达推出认证系统,正是希望举生态之力,推动AI的广泛落地,而背后的深层动力,则是希望在普遍落地的产业端,继续在云端市场的辉煌。对于迫切需要平台支持、让AI应用更便捷的企业来说,也是很大的推动力。