【泡泡图灵智库】Self6D:自监督单目6D目标位姿估计 / 开普饭

泡泡图灵智库，带你精读机器人顶级会议文章

标题：Self6D: Self-Supervised Monocular 6D Object

Pose Estimation

作者: Gu Wang 1,2,∗ Fabian Manhardt 2,∗ Jianzhun Shao 1Xiangyang Ji 1 Nassir Navab 2 Federico Tombari 2,3

机构：1Tsinghua University, BNRist 2 Technical University of Munich 3 Google

来源：ECCV 2020

编译 : 万应才

审核：wyc

这是泡泡图灵智库推送的第 541篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是Self6D: Self-Supervised Monocular 6D Object Pose Estimation

6D目标姿态估计是计算机视觉中的一个基本问题。卷积神经网络（CNNs）最近被证明能够预测可靠的6D姿态估计，甚至从单目图像。尽管如此，cnn被认为是依赖数据驱动的，获取足够的标签通常非常耗时。为了克服这一缺点，我们提出了一种基于自监督学习的单目6D位姿估计方法，改变了对真实标注的需要。在用合成的RGB数据对我们提出的网络进行全监督训练后，我们利用Nero渲染的最新方法，在未注记的真实RGB-D数据上进一步自我监督模型，寻求视觉上和几何上的最佳对准。大量的评估表明，我们提出的自我监督能够显著提高模型的原始性能，优于依赖合成数据等所有其他方法。

背景与贡献

我们作出以下贡献：

i）据我们所知，我们是第一个从真实数据中进行自我监督的6D目标姿态估计，而不需要6D标签。

ii）利用神经网络渲染方法，提出了一种基于视觉和几何对准的自监督6D位姿估计方案。

iii）实验表明，我们称之为Self6D的方法，在很大程度上优于现有的单目6D目标姿态估计方法。当前的合成数据集能更好地泛化到相关的领域。

算法流程

1.整体结构

在这项工作中，我们的目标是通过自监督学习从单目图像中进行6D位姿估计。为此，我们提出了一种新的模型，可以从合成的RGB数据和真实世界中未注记的RGB-D数据中学习单目姿态估计。采用神经网络渲染技术，通过建立真实图像与真实图像之间的一致性，实现对模型的自监督。由于这需要良好的初始姿势估计，我们依赖于两阶段方法。如图1所示，我们从仅使用合成RGB数据训练模型开始。然后，利用未标记的真实世界RGB-D数据进一步提高了姿态估计的性能。

图1 整体结构上图：我们开始训练我们的6D姿态估计模型，纯粹基于合成的RGB数据，来预测3D旋转R、平移t和对象实例mask mp。利用大量未标记的RGB-D图像（is，ds），通过自监督学习来提高模型的性能。我们分别渲染（R）相关的RGB-D图像和掩模（ir，dr，mr）。底部：我们在视觉上（a和b）施加各种约束，并在几何上（c）对齐6D姿势。

我们的目标是在当前姿态下只提取模型的可见表面。这可以通过不同的方式实现：通过剔除隐藏点，或者简单地以当前姿势渲染对象。因为我们需要渲染颜色来进行视觉对齐，所以我们使用渲染深度来提取可见表面，因为这在计算上没有额外的成本

2. 方法

我们使用文献[6]提出的可微渲染器DIB-R对模型进行6D姿态估计。由于DIB-R只能绘制RGB图像和目标遮罩，因此我们对其进行了扩展，以提供完全可微的深度图。另外，我们还修改了摄影机投影以进行真实透视投影。假设6D姿态为3D旋转R，3D平移t，加上3D CAD模型M和相机固有矩阵K，我们绘制了由渲染的RGB图像ir、渲染深度图dr和渲染掩模MR组成的三元组（ir，dr，MR）

2.2 构建细节

除了渲染，三维旋转和平移的预测必须是可微的，以便允许反向传播。虽然基于建立二维-三维对应关系的方法目前在该领域占主导地位，但由于无法计算PnP的梯度，因此采用它们是不可行的。为此，我们依赖与ROI-10D[39]类似的网络架构，因为它们直接估计旋转和平移。不幸的是，ROI-10D的预测姿态不够精确，无法满足我们自我监督的要求，因此，我们将我们的方法建立在最新的FCOS[54]探测器上。此外，我们后续自我监督的一个关键部分需要对象实例掩码。由于没有提供注释，我们进一步扩展ROI-10D来估计每个检测的可见对象掩码mp。

2.3 神经渲染视觉对齐

最直观的方法是简单地将渲染图像ir与传感器图像I S对齐，直接在两个样本上部署一个损失。然而，由于I S和I R之间的领域差距非常大，这在实践中并不奏效。尤其是，闪电变化以及反射和糟糕的重建质量（尤其是在颜色方面）通常会导致较高的误差，尽管姿势估计很好，最终导致优化中的分歧。

由于我们的数据未经注释，我们将预测的掩码M P作为弱监管。然而，由于不完美的预测掩模，我们使用了修正的交叉熵损失[18]，它重新校准了正负区域的权重：