NVIDIA Maxine 是一款云 AI 视频流平台,将使用 GAN 来提高带宽性能

 

 

Ming-Yu Liu 和 Arun Mallya 正在进行视频通话,其中一个人的画面开始出现卡顿,直至画面定格。

 

这是一种常见且令人反感的情况。但与大多数人不同的是,Liu 和 Mallya 可以做出一些改变。

 

他们是 NVIDIA 的 AI 研究人员,专攻计算机视觉。在与 Ting-Chun Wang 共事中,他们意识到可以使用神经网络来替代被称为视频编解码器的软件,这种软件通常用于视频在网络传输过程中的压缩和解压缩。

 

迄今为止,他们的工作成果将用户在视频通话时所需的网络带宽压缩至原来的十分之一,还有望将带宽消耗降低数个数量级。

 

Mallya 表示:“我们希望通过 AI 提供更好的视频沟通体验,即使在带宽极低的情况下,也可以从语音升级到视频通话。”

 

GAN 让连接质量更佳

即使用户的面部有遮挡(比如戴着帽子、眼镜、耳机或口罩),这项技术同样适用。为了增加趣味性,他们在演示中使用了一些装饰物,这样用户可以在线上更改其发型或衣服或者创建头像。

 

更重要的是,如上图所示,借助神经网络定位,无需再盯着显示器上方摄像头才能与对方对视,这增强了面对面对话的感觉。

 

Wang 表示:“借助计算机视觉技术,我们可以从多个角度来定位头部。我们认为这将帮助人们更自然地进行对话。”

 

迎接最前沿的 AI 技术,让虚拟生活更真实。

 

AI 赋能视频通话的原理

AI 辅助视频通话的工作机制十分简单。

 

与目前使用压缩的视频流的系统类似,参考图像发送后,仅用户眼睛、鼻子和嘴巴周围几个关键点的位置数据被发送,而非发送大量压缩过像素的图像。

 

接收端的生成式对抗网络通过初始图像和面部关键点,在本地 GPU 上重构后续图像。因此,通过网络传输的数据要比之前少得多。

 

Liu 在 GAN 领域的工作成果 GauGAN 曾引发关注。GauGAN 是一种可以将涂鸦转化为写实艺术作品的 AI 工具,目前已经创建了超过一百万张图像。该工具可在 AI Playground 中获取。

 

Liu 表示:“疫情期间频繁的视频会议启发了我们,因此我们开始探索突破带宽瓶颈的方式,让供应商可以同时为更多人提供服务。”

 

GPU 突破带宽瓶颈

这一方法顺应当前行业趋势,将网络瓶颈转化为计算任务,从而借助本地或云端资源更轻松地解决此类问题。

 

NVIDIA 媒体集团高级产品总监 Andrew Page 表示:“如今,许多公司希望将带宽问题转化为计算问题,这是因为带宽一般很难增加,而增强算力则相对容易。”

 

NVIDIA Maxine 搭配了一套视频会议和流媒体服务工具

 

AI 工具优化视频服务

GAN 视频压缩是 NVIDIA Maxine 即将推出的几个功能之一,这是一个云 AI 视频流平台,用于增强视频会议和电话质量。它将音频、视频和对话式 AI 功能整合在一个工具包中,并支持多种设备。

 

在上周的 GTC 大会上,NVIDIA 宣布推出了 Maxine 平台。基于该平台,服务提供商能够在提供超高分辨率的视频的同时,实现实时翻译、噪声消除和情景感知的闭路字幕。用户可以享受到人脸校正、虚拟助手和化身逼真的动画角色等功能。

 

Page 表示:“视频会议正在经历一场复兴。疫情期间,它的缺点给所有人带来了不愉快的使用体验,但回归视觉动物的属性,视频终将成为人们今后生活中的一部分。”

 

通过利用基于 Tensor Core 核心的 NVIDIA GPU,Maxine 可运行如 NVIDIA Jarvis 的软件。NVIDIA Jarvis 是用于对话式 AI 的 SDK,提供了一套语音和文本功能。 它们共同提供了当今有用的 AI 功能,并成为未来视频产品和服务的基石。

 

想要了解更多有关 AI 计算的最新技术,解锁 GPU 前沿应用,可点击链接:https://www.nvidia.cn/gtc/keynote/,观看 GTC 2020 秋季站主题演讲上的精彩内容。