【泡泡图灵智库】Self6D:自监督单目6D目标位姿估计
泡泡图灵智库,带你精读机器人顶级会议文章
标题:Self6D: Self-Supervised Monocular 6D Object
Pose Estimation
作者: Gu Wang 1,2,∗ Fabian Manhardt 2,∗ Jianzhun Shao 1Xiangyang Ji 1 Nassir Navab 2 Federico Tombari 2,3
机构:1Tsinghua University, BNRist 2 Technical University of Munich 3 Google
来源:ECCV 2020
编译 : 万应才
审核:wyc
这是泡泡图灵智库推送的第 541篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
大家好,今天为大家带来的文章是Self6D: Self-Supervised Monocular 6D Object Pose Estimation
6D目标姿态估计是计算机视觉中的一个基本问题。卷积神经网络(CNNs)最近被证明能够预测可靠的6D姿态估计,甚至从单目图像。尽管如此,cnn被认为是依赖数据驱动的,获取足够的标签通常非常耗时。为了克服这一缺点,我们提出了一种基于自监督学习的单目6D位姿估计方法,改变了对真实标注的需要。在用合成的RGB数据对我们提出的网络进行全监督训练后,我们利用Nero渲染的最新方法,在未注记的真实RGB-D数据上进一步自我监督模型,寻求视觉上和几何上的最佳对准。大量的评估表明,我们提出的自我监督能够显著提高模型的原始性能,优于依赖合成数据等所有其他方法。
背景与贡献
我们作出以下贡献:
i) 据我们所知,我们是第一个从真实数据中进行自我监督的6D目标姿态估计,而不需要6D标签。
ii)利用神经网络渲染方法,提出了一种基于视觉和几何对准的自监督6D位姿估计方案。
iii)实验表明,我们称之为Self6D的方法,在很大程度上优于现有的单目6D目标姿态估计方法。当前的合成数据集能更好地泛化到相关的领域。
算法流程
1.整体结构
在这项工作中,我们的目标是通过自监督学习从单目图像中进行6D位姿估计。为此,我们提出了一种新的模型,可以从合成的RGB数据和真实世界中未注记的RGB-D数据中学习单目姿态估计。采用神经网络渲染技术,通过建立真实图像与真实图像之间的一致性,实现对模型的自监督。由于这需要良好的初始姿势估计,我们依赖于两阶段方法。如图1所示,我们从仅使用合成RGB数据训练模型开始。然后,利用未标记的真实世界RGB-D数据进一步提高了姿态估计的性能。
图1 整体结构 上图:我们开始训练我们的6D姿态估计模型,纯粹基于合成的RGB数据,来预测3D旋转R、平移t和对象实例mask mp。利用大量未标记的RGB-D图像(is,ds),通过自监督学习来提高模型的性能。我们分别渲染(R)相关的RGB-D图像和掩模(ir,dr,mr)。底部:我们在视觉上(a和b)施加各种约束,并在几何上(c)对齐6D姿势。
我们的目标是在当前姿态下只提取模型的可见表面。这可以通过不同的方式实现:通过剔除隐藏点,或者简单地以当前姿势渲染对象。因为我们需要渲染颜色来进行视觉对齐,所以我们使用渲染深度来提取可见表面,因为这在计算上没有额外的成本
2. 方法
我们使用文献[6]提出的可微渲染器DIB-R对模型进行6D姿态估计。由于DIB-R只能绘制RGB图像和目标遮罩,因此我们对其进行了扩展,以提供完全可微的深度图。另外,我们还修改了摄影机投影以进行真实透视投影。假设6D姿态为3D旋转R,3D平移t,加上3D CAD模型M和相机固有矩阵K,我们绘制了由渲染的RGB图像ir、渲染深度图dr和渲染掩模MR组成的三元组(ir,dr,MR)
2.2 构建细节
除了渲染,三维旋转和平移的预测必须是可微的,以便允许反向传播。虽然基于建立二维-三维对应关系的方法目前在该领域占主导地位,但由于无法计算PnP的梯度,因此采用它们是不可行的。为此,我们依赖与ROI-10D[39]类似的网络架构,因为它们直接估计旋转和平移。不幸的是,ROI-10D的预测姿态不够精确,无法满足我们自我监督的要求,因此,我们将我们的方法建立在最新的FCOS[54]探测器上。此外,我们后续自我监督的一个关键部分需要对象实例掩码。由于没有提供注释,我们进一步扩展ROI-10D来估计每个检测的可见对象掩码mp。
2.3 神经渲染视觉对齐
最直观的方法是简单地将渲染图像ir与传感器图像I S对齐,直接在两个样本上部署一个损失。然而,由于I S和I R之间的领域差距非常大,这在实践中并不奏效。尤其是,闪电变化以及反射和糟糕的重建质量(尤其是在颜色方面)通常会导致较高的误差,尽管姿势估计很好,最终导致优化中的分歧。
由于我们的数据未经注释,我们将预测的掩码M P作为弱监管。然而,由于不完美的预测掩模,我们使用了修正的交叉熵损失[18],它重新校准了正负区域的权重:
2.4 神经渲染几何对齐
本文利用渲染的深度贴图来仅对可见区域进行比较。然而,直接在两个深度图上使用损失会导致不好的对应,因为掩模不相交的点无法匹配。因此,我们对三维可见表面进行操作,以找到最佳的几何对齐方式。我们首先利用相应的掩模mp和mr对ds和dr进行回溯,得到摄像机空间的可见点云ps和pr
主要结果
表1 pose误差与自我监督。我们对LineMOD的单个图像进行200次迭代优化,并报告总共100张图像的平均值。
我们用Self6D-LB初始化6D姿势。
图3 我们在LineMOD上报告ADD(-S)的平均指标。
图 4 与Results for LineMOD
图5 Results for HomebrewedDB