FacebookAI正在升维打破教AI像人类相同了解三维国际

2019-11-03 17:45:57 阅读：5634 作者：责任编辑NO。杜一帆0322

为了更好地了解实际国际，AI 体系不只需求精确辨认物体，还有必要学会以三维视角了解视觉场景，比方将二维图片中的沙发、餐桌和茶几以三维建模的办法重现出来。

这对 AI 的图画了解才能提出了极高的要求，由于它有必要知道怎么判别景深，搞清楚方针坐落相片的远景仍是布景中，乃至要在必定程度上揣度出缺失部分的姿态。

Facebook AI近来在首尔国际计算机视觉大会（ICCV）上演示了他们在这个范畴的最新研讨效果，一同也在博客和 arxiv 上发布了技能简介和论文，体现冷艳，研讨效果之一还取得了 ICCV 最佳论文提名。

图 | 将视频中的沙发和椅子三维化（来历：Facebook）

为了完成这一方针，研讨人员不只开发了新的算法，还整合了多个最新研讨效果，包括用来猜测 3D 形状的 Mesh R-CNN 神经网络结构，用来提取和重建 3D 不规则模型的 C3DPO 办法，用来检测物体和生成 3D 点云的 VoteNet 技能以及配套的新式优化算法等等。

研讨团队信任，经过加强对三维物体的了解，AI 可以更严密地衔接二维和三维国际，在计算机视觉范畴扮演更重要的人物，推进 3D 打印、AR 和 VR 等技能在实际生活中的前进，将这些技能拓宽到更广泛的使命上，终究像人类相同了解三维国际。

猜测受阻挠的 3D 不规则形状

现有的根据 Mask R-CNN 的图画了解和感知体系确实很强壮，适用广泛，但它们做出的猜测主要以二维数据为根据，疏忽了实在国际凌乱的三维结构。想要在实在国际中辨认和判别不规则物体的三维数据，例如在凌乱多变的环境中辨认和扫除遮挡物，需求战胜一系列光学应战。由于技能原因，仅凭现有的工程结构（Mask R-CNN）难以担任。

为了应对这些应战，研讨人员首要经过网格猜测分支（mesh prediction branch）强化了 Mask R-CNN 的 2D 方针切割体系，随后专门创建了一个Pytorch 库 Torch3d，里边贮存了高度优化后的 3D 运算符，可以协助完成 3D 物体结构采样和猜测。

图 | 经过网格构建物体 3D 形状（来历：Facebook）

简略来说，新开发的 Mesh R-CNN 结构可以凭借现有的 Mask R-CNN 来检测和分类图画中的各种物体，之后运用网格猜测器揣度和描绘出一个物体 3D 形状，终究取得细粒度的 3D 结构数据。

在这一进程中，Facebook 还运用了 Detectron2 库。这是一个模块化物体检测库，最早由 Facebook 团队在 2018 年推出，取得过屡次更新。它将 RGB 图画视为输入值，可以检测物体和猜测 3D 形状，一同还支撑捕捉视频中的物体和动作改变。

与练习 Mask R-CNN 类似，研讨团队运用了监督学习的办法来练习 Mesh R-CNN 学习 3D 形状猜测。他们在 Pix3D 和 ShapeNet 两个数据集上评价了新结构，它成为了第一个可以在所有场景类别中检测到物体完好 3D 形状的体系，而且概括体现也高出之前结构 7%。

经过二维要害点重建三维方针

关于无法运用网格的场景，Facebook 研讨人员开发了另一种办法：捕捉 2D 要害点，再将数据输入 C3DPO 体系（Canonical 3D Pose Network），用来重建 3D 要害点模型。

2D 要害点可以经过盯梢物体特定部分的运动得到，比方人的关节和鸟的翅膀，可以供给物体几许形状或视角改变的完好轨道。这并不难完成，难的是怎么生成 3D 要害点，这关于 3D 建模来说至关重要，也是在实际中运用潜力最大的当地——更好的建模质量意味着在 VR 中生成更传神的虚拟头像。

图 | 经过二维图片要害点（上）生成三维模型（下）（来历：Facebook）

研讨团队开发的 C3DPO 模型可以重建数十万张图画的数据集，每张图片都包括数千个 2D 要害点。在给定一组 2D 要害点的前提下，该模型可以猜测现有的摄像头视角参数，而且得出标准视角下 3D 要害点的定位信息，对确认物体的相对方位至关重要。

为了战胜分化 3D 视角和形状时的不确认性——AI 需求脑补看不到的当地，存在苍茫多的可能性——研讨人员开发了一套正则化技能，包括第二个辅佐深度神经网络，可以跟着 3D 重建网络一同学习，标准模型重建进程。

Facebook 着重，由于之前根据矩阵分化的办法存在内存约束，这种重建是无法完成的。而新开发的深度网络 C3DPO 可以以小批量（minibatch）的状况运转，功率很高，对硬件的要求大大下降，使得对飞机等大型物体的三维数据捕捉和重建成为可能。

学习怎么从像素映射到物体外表

为了削减针对一般物体开发三维形状数据捕捉的监督程度，Facebook 团队开发了一种类似于主动物体切割的办法，适用于未标示图画。无需清晰猜测图画底层的 3D 结构，就可以直接将图画中的像素映射到 3D 形状模板的外表上。

这种映射不只可以协助体系更好地了解图画，还可以协助概括相同类别物体之间的联系。以人类为例，当咱们看到左边图画中高亮显现的鸟喙，就可以轻松找到右侧图画中对应的点。

（来历：Facebook）

关于 AI 来说，完成像素到物体外表的映射意味着它也可以具有这种才能，由于同类其他物体之间同享了类似的 3D 结构。假如咱们练习 AI 学习怎么正确坐在椅子上或许抓住杯子，那么在它学会之后，再换一张椅子或许一个杯子，它对物体 3D 结构的了解也可以协助其快速把握新技巧。

这些效果不只可以协助 AI 加深对传统 2D 图画和视频内容的了解，还可以用来增强 AR 和 VR 体会。

研讨团队表明，在评价不同个例之间对应联系的精确性时，新体系的体现优于旧办法两倍。更重要的是，这种学习办法可以完成从像素到物体外表的映射，并将其与外表到像素的逆向操作配对，然后构成一个从练习到查验的循环，所用的图片数据集也无需标示，因而大大下降了练习所需的监督程度。

改进 3D 体系物体检测使命

终究一个在 3D 建模使命中扮演重要人物的效果是VoteNet。这是一套为 3D 点云体系定制的高精度端到端 3D 方针检测网络，取得了 ICCV 2019 的最佳论文提名。

与传统依靠 2D 图画信号的点云体系不同，VoteNet 支撑的体系彻底根据 3D 点云，功率和精度都更胜一筹，可以从深度相机获取 3D 点云，并回来带有物体或形状标示的 3D 鸿沟框。

它以经典霍夫改换算法为根底（运用投票的办法检测物体形状），引入了一种新的投票机制，可以在物体中心邻近生成新点，然后将它们分组和汇总，生成多个 3D 盒状提案。深度神经网络在学习怎么投票之后，每组 3D 种子点（seed point）会投票决定物体中心，找到它们的方位，概括起来代表特定物体的方位，还能判别物体类别，标示它是椅子仍是桌子。

图 | VoteNet 完成办法（来历：Facebook）

研讨人员表明，开源的 VoteNet 具有简略的规划、紧凑的模型和很高的功率，是最先进的 3D 物体检测办法之一。它仅凭几许信息，无需五颜六色图画，就在 SUN GRB-D 和 ScanNet 的测验中逾越了现有办法，是捕捉场景中 3D 方针的中心东西。

从主动驾驶到生物医疗，3D 扫描技能的运用场景正在快速拓宽，因而运用计算机直接了解和分类 3D 场景物体的才能变得益发重要。这对计算机视觉研讨提出了更高的要求，但也是增强 AI 对实际场景了解才能的必要进程，有助于进一步缩小物理空间和虚拟空间的距离，推进 VR 和 AR 等技能的开展，乃至是掀起新一轮技能革命。

终究假如概括触觉感官和自然语言了解等技能，咱们有朝一日或许可以见到像人类相同了解并与实际国际互动的 AI 体系。

-End-

参阅：

https://ai.facebook.com/blog/pushing-state-of-the-art-in-3d-content-understanding/

https://ai.facebook.com/blog/-detectron2-a-pytorch-based-modular-object-detection-library-/

https://research.fb.com/publications/c3dpo-canonical-3d-pose-networks-for-non-rigid-structure-from-motion/

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

上一篇：低速电动车大王知豆轿车将被拍卖市值蒸腾近

下一篇：双11前价格先涨后降NO北京5部分联合行动

FacebookAI正在升维打破教AI像人类相同了解三维国际

热门推荐

天威诚信:数智潮流之下,司库业务建设合规解决方案

Arm 年度技术大会: 预计2025 年底，全球将有超过 1,000 亿台具备 AI 能力的 Arm 设备

《2024中国力量年度人物》陆川：新时代下的“追光者”

微软应用商店引入腾讯应用宝专区，拓展 Windows 应用生态

BOYA博雅双11战报出炉BOYAmini迷你麦克风全平台总GMV破1500万

FacebookAI正在升维打破教AI像人类相同了解三维国际

热门推荐

天威诚信:数智潮流之下,司库业务建设合规解决方案

Arm 年度技术大会: 预计2025 年底，全球将有超过 1,000 亿台具备 AI 能力的 Arm 设备

《2024中国力量年度人物》 陆川：新时代下的“追光者”

微软应用商店引入腾讯应用宝专区，拓展 Windows 应用生态

BOYA博雅双11战报出炉BOYAmini迷你麦克风全平台总GMV破1500万

《2024中国力量年度人物》陆川：新时代下的“追光者”