与非网 3 月 13 日讯,谷歌 AI 在其官方博客上发布了一款名为 MediaPipe Objectron 的算法框架,利用这个算法框架,只要一部手机,就能实时从 2D 视频里识别 3D 物品的位置、大小和方向。这一技术可以帮助机器人,自动驾驶汽车,图像检索和增强现实等领域实现一系列的应用。

 

我们知道,3D 数据集相对于 2D 来说,非常有限。

 

为了解决这个问题,谷歌 AI 的研究人员使用移动增强现实(AR)会话数据(session data),开发了新的数据 pipeline。

 

 

目前来说,大部分智能手机现在都具备了增强现实的功能,在这个过程中捕捉额外的信息,包括相机姿态、稀疏的 3D 点云、估计的光照和平面。

 

为了标记 groud truth 数据,研究人员构建了一个新的注释工具,并将它和 AR 会话数据拿来一起使用,能让注释器快速地标记对象的 3D 边界框。


MediaPipe 是谷歌去年 7 月份发布的一个多媒体框架,它在安卓、IOS 网页等各种平台上都能应用机器学习媒体模型。昨日 MediaPipe 发布 0.7 版,并加入了移动端试试 3D 检测模型。目前 MediaPipe 包含人脸检测、手部检测、头发分割和视频自动横竖屏转换等功能。主要用于构建处理不同形式的感知数据。


在计算机视觉领域里,跟踪 3D 目标是一个棘手的问题,尤其是在有限的计算资源上,例如,智能手机上。由于缺乏数据,以及需要解决物体多样的外观和形状时,而又仅有可 2D 图像可用时,情况就会变得更加困难。

 

为了解决这个问题,谷歌 Objectron 团队开发了一套工具,可以用来在 2D 视频里为对象标注 3D 边界框,而有了 3D 边界框,就可以很容易地计算出物体的姿态和大小。注释器可以在 3D 视图中绘制 3D 边界框,并通过查看 2D 视频帧中的投影来验证其位置。对于静态对象,他们只需在单个帧中注释目标对象即可。


为了补充现实世界的训练数据以提高 AI 模型预测的准确性,该团队还开发了一种名为 AR Synthetic Data Generation(增强现实合成数据生成)的新颖方法。它可以将虚拟对象放置到具有 AR 会话数据的场景中,允许你利用照相机,检测平面和估计照明,来生成目标对象的可能的位置,以及生产具有与场景匹配的照明。这种方法可生成高质量的合成数据,其包含的渲染对象能够尊重场景的几何形状并无缝地适配实际背景。


通过上述两个方法,谷歌结合了现实世界数据和增强现实合成数据,将检测准确度度提高了 10%。

 

增强现实合成数据生成的一个示例:虚拟白褐色谷物盒渲染到真实场景中,紧邻真实蓝皮书。


准确度的提升是一方面,谷歌表示,当前版本的 Objectron 模型还足够“轻巧”,可以在移动设备上实时运行。借助 LG V60 ThinQ,三星 Galaxy S20 +和 Sony Xperia 1 II 等手机中的 Adreno 650 移动图形芯片,它能够每秒处理约 26 帧图像,基本做到了实时检测。

 

接下去,谷歌团队表示:" 我们希望通过与更多的研究员和开发者共享我们的解决方案,这将激发新的应用案例和新的研究工作。我们计划在未来将模型扩展到更多类别,并进一步提高设备性能。"