在刚刚召开的2021 年国际计算机视觉与模式识别会议(CVPR 2021)上,许多重磅消息发布。作为计算机视觉领域的三大顶会之一,可以说它是创新趋势的风向标和前沿技术的秀场。在CVPR 2021上,英伟达发布了迁移学习工具包3.0、预训练模型,有助于企业进一步提升AI开发能力,并为部署生产级AI降低门槛。

 

这些消息也进一步论证,计算机视觉技术经过了前期开发的第一阶段,正在向落地和打造平台优势的第二阶段演进。

 

迁移学习工具包3.0助力快速实现生产级AI

 

计算机视觉是AI研究的一个重要分支,也是日常生活、工作中应用最广泛的AI技术之一,如车辆识别、人脸识别、体态识别等技术,已广泛应用于智慧城市、交通、零售、文娱等领域。同时,计算机视觉也是机器人、无人驾驶等技术的重要基础,未来将具有更加广泛的应用领域。

 

但对于大部分AI开发者来说,图像识别从算法研究、模型训练到规模化的提供服务,所需的资源和处理的流程非常之多。如何保证数据质量、提高推理速度、提升识别精度等都面临很多挑战。那么,开发者如何才能减少模型训练、调优所需时间?如何降低数据收集、标注成本?如何便捷、大规模部署AI模型?迁移学习便是一种重要方式。

 

英伟达最新发布的迁移学习工具包(TLT)3.0已全面公开可用。据了解,迁移学习工具包在NVIDIA TAO平台指导工作流程以创建AI的过程中起到核心作用。新版本包括各种高精度和高性能计算机视觉和对话式AI预训练模型,以及一套强大的生产级功能,可将AI开发能力提升10倍。

 

 
英伟达迁移学习工具包(TLT)3.0


新版本亮点包括:

  • 一个支持边缘实时推理的姿态估计模型,其推理性能比OpenPose模型快9倍。
  • PeopleSemSegNet,一个用于人物检测的语义分割网络。
  • 各种行业用例中的计算机视觉预训练模型,如车牌检测和识别、心率监测、情绪识别、面部特征点等。
  • CitriNet,一个使用各种专有特定域和开源数据集进行训练的新语音识别模型。
  • 一个用于问题回答的新Megatron Uncased模型以及许多其他支持语音文本转换、命名实体识别、标点符号和文本分类的预训练模型。
  • AWS、GCP和Azure上的训练支持。
  • 在用于视觉AI的NVIDIA Triton和DeepStream SDK上以及用于对话式AI的Jarvis上的开箱即用部署。

 

据英伟达方面介绍,随着企业竞相推出AI解决方案,开发工具对于企业的竞争力提升起到重要作用。对于许多尝试使用开源AI产品创建模型进行训练的工程和研究团队来说,在生产中部署自定义、高精度、高性能AI模型可能是一段十分艰难的开发历程。

 

英伟达提供的TLT和预训练模型可以帮助企业降低大规模数据采集和标注成本,同时告别从头开始训练AI/机器学习模型的负担。初入计算机视觉和语音服务市场的企业也可以在不具备大规模AI开发团队的情况下部署生产级AI。

 

不仅如此,TLT 3.0还实现了与数家合作伙伴的平台集成,这些合作伙伴可提供大量多样化的高质量标签数据,使端到端AI/机器学习工作流程更快。对于企业来说,可以使用这些合作伙伴的服务来生成和注释数据、通过与TLT无缝集成进行模型训练和优化并使用DeepStream SDK或Jarvis部署模型以创建可靠的计算机视觉和对话式AI应用。

 

GAN 研究重塑视频会议

 

基于 GAN 研究的NVIDIA Maxine云AI视频流SDK也在CVPR 2021上进行了展出,从演示来看,一些细致的突破可以说是直抓应用痛点。

 

拿我们工作中常用到的视频会议系统来说,不知你有没有这样的尴尬时刻:头发凌乱、穿着睡衣,不敢以真面目示人……那么现在救兵来了。你只需要在视频会议前上传一张正装照片后,就能在会议中以得体的工作形象示人。这是因为 AI 可以将你的面部动作映射到参照照片上,甚至如果你向左转,它也可以调整视角,使你看上去是直接面对摄像头的。

 

这背后的关键技术就是Vid2Vid Cameo ,它是用于视频会议的 NVIDIA Maxine SDK 的深度学习模型之一,借助生成式对抗网络 ( GAN ) ,仅用一张人物2D图像即可合成逼真的人脸说话视频。

 
据介绍,Vid2Vid Cameo 只需两个元素,即可为视频会议打造逼真的 AI 人脸说话动态,这两个元素分别是一张人物外貌照片和一段视频流,它们决定了如何对图像进行动画处理。

 

模型基于 NVIDIA DGX 系统开发,使用包含 18 万个高质量人脸说话视频的数据集进行训练。相应网络学会了识别 20 个关键点,这些关键点可用于在没有人工标注的情况下对面部动作进行建模。这些点对特征(包括眼睛、嘴和鼻子)的位置进行编码。

 

然后,它会从通话主导者的参照图像中提取这些关键点,这些关键点可以提前发送给其他的视频会议参与者,也可以重新用于之前的会议。这样一来,视频会议平台只需发送演讲者面部关键点的移动情况数据,无需将某参与者的大量直播视频流推送给其他人。

 

对于接收者一端,GAN 模型会使用此信息,模拟参照图像的外观以合成一个视频。

 

通过仅来回压缩及发送头部位置和关键点,而不是完整的视频流,此技术将视频会议所需的带宽降低 10 倍,从而提供更流畅的用户体验。该模型可以进行调整,传输不同数量的关键点,以实现在不影响视觉质量的条件下,适应不同的带宽环境。

 

写在最后

 

随着计算机视觉技术的逐渐成熟,其实际应用的技术领域不断扩展,由最初的静态人脸识别和光学字符识别,已经扩展到人脸识别分析、活体检测、人体识别分析、物体检测识别、行为识别分析、人体重识别、医疗影像诊断技术等诸多种方向。

 

动态场景的处理成为计算机视觉当前的一个重要研究方向。对于动态目标的跟踪、检测、分析、行为的识别与理解等工作,需要上升到系统化水平。

 

在动态的视觉应用场景中,迁移学习有助于当前的研究和应用突破。英伟达迁移学习工具包TLT 3.0提供了AI/DL框架的现成接口,能够使开发者能够更快地构建模型,而不需要编码,可以降低大规模数据收集、标记的相关成本。并且,基于高性能算力平台训练的高质量预训练模型,也可以帮助降低开发成本,省去从头开始训练AI/机器学习模型的流程,有助于AI模型在生产中的大规模部署和落地。