(原标题:谷歌持续开源新AI结构,可完成手机高效实时3D方针检测)
汹涌新闻记者 王心馨
怎么从2D图画中做3D方针检测,关于核算机视觉研讨来说,一直是个应战。
3月12日,谷歌AI在其官方博客上发布了一款名为MediaPipe Objectron的算法结构,使用这个算法结构,只需一部手机,就能实时从2D视频里辨认3D物品的方位、巨细和方向。这一技能可以在必定程度上协助机器人,无人驾驶轿车,图画检索和增强实践等范畴完成一系列的使用。
分开来解说,MediaPipe是一个开源代码跨渠道结构,大多数都用在构建处理不同方式的感知数据,而 Objectron在MediaPipe中完成,并可以在移动设备中实时核算面向方针的3D鸿沟框。
在核算机视觉范畴里,盯梢3D方针是一个扎手的问题,尤其是在有限的核算资源上,例如,智能手机上。因为缺少数据,以及需求处理物体多样的外观和形状时,而又仅有可2D图画可用时,状况就会变得更困难。
为了处理这样的一个问题,谷歌Objectron团队开发了一套东西,可拿来在2D视频里为方针标示3D鸿沟框,而有了3D鸿沟框,就可以很容易地核算出物体的姿势和巨细。注释器可以在3D视图中制作3D鸿沟框,并经过检查2D视频帧中的投影来验证其方位。关于静态方针,他们只需在单个帧中注释方针方针即可。
右:在3D国际中检测外表和点云标示3D鸿沟框。左:带注释3D鸿沟框的投影叠加于视频帧,然后便以验证注释。
为了弥补实践国际的练习数据以进步AI模型猜测的精确性,该团队还开发了一种名为AR Synthetic Data Generation(增强实践组成数据生成)的新颖办法。它可以将虚拟方针放置到具有AR会话数据的场景中,答应你使用照相机,检测平面和估量照明,来生成方针方针的或许的方位,以及出产具有与场景匹配的照明。这种办法可生成高质量的组成数据,其包括的烘托方针可以尊重场景的几许形状并无缝地适配实践布景。
网络的样本成果:左面是带有估量鸿沟框的原始2D图画;中心是高斯分布的方针检测;右边是猜测的切割蒙版。
经过上述两个办法,谷歌结合了实践国际数据和增强实践组成数据,将检测精确度度进步了10%。
增强实践组成数据生成的一个示例:虚拟白褐色谷物盒烘托到实在场景中,紧邻实在蓝皮书。
精确度的提高是一方面,谷歌表明,当时版别的Objectron模型还满足“轻盈”,可以在移动设备上实时运转。凭借LG V60 ThinQ,三星Galaxy S20 +和Sony Xperia 1 II等手机中的Adreno 650移动图形芯片,它可以每秒处理约26帧图画,根本做到了实时检测。
接下去,谷歌团队表明:" 咱们咱们都期望经过与更多的研讨员和开发者同享咱们的处理方案,这将激起新的使用事例和新的研讨工作。咱们计划在未来将模型扩展到更多类别,并进一步提高设备功能。"