CoCoNets:连续对比的3D场景再现

点击上方“深度学习爱好者”,选择加"星标"或“置顶

重磅干货,第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

本文探讨self-supervised学习从RGB模态的三维特性的表征和RGB-D构成图像和视频,不可知论者对象和场景的语义内容,和评估结果现场表示下游任务的视觉通信,检测对象跟踪和对象。该模型以三维特征点的形式推导出场景的潜在三维表示,其中每个连续的世界三维点映射到其相应的特征向量。通过在查询的视点中绘制三维特征云,并与查询视图预测的三维特征点云进行匹配,训练模型进行对比视图预测。值得注意的是,可以查询任何3D位置的表示,即使它在输入视图中不可见。我们的模型结合了最近令人兴奋的研究工作的三个强大的想法:3D特征网格作为视图预测的神经瓶颈,隐式函数处理3D网格的分辨率限制,以及对比学习的特征表示的无监督训练。我们展示了由此产生的三维视觉特征表示有效地跨对象和场景缩放,想象输入视点中遮挡或缺失的信息,随着时间的推移跟踪对象,对齐3D中语义相关的对象,并改进3D对象检测。我们的性能超过了许多现有的最先进的三维特征学习和视图预测方法,这些方法要么受到三维网格空间分辨率的限制,要么没有尝试构建模态的三维表示,要么由于它们的非卷积瓶颈而不能处理组合场景变异性。

项目主页:https://mihirp1998.github.io/project pages/coconets/

论文创新点

我们的实验结果可以总结如下:

(1)三维目标跟踪和再识别:我们发现,与基线相比,由CoCoNets学习的场景表征能够更好地检测出大帧间隙的三维目标。

(2)有监督的三维目标检测:使用学习的三维点特征作为初始化,提高了先进的深度霍夫投票检测器[37]的性能。

(3)三维交叉视图和交叉场景对象的三维对齐:我们发现,学习的三维特征表示能够推断不同视点下同一对象之间的6DoF对齐,以及同一类别下不同对象之间的6DoF对齐,优于[54,15,8]。我们进一步表明,我们的模型可以预测图像视图(有或没有深度作为输入)和3D使用率优于或等同于最先进的视图和占用预测模型。

框架结构

连续卷积对比度3D网络(CoCoNets)通过优化视图对比度预测,将2.5D图像提升为场景的3D特征功能网格。(a)在自顶向下的路径中,模型将RGB-D图像编码为一个3D特征地图,并使用显式的3D特征转换(平移和3D旋转)来考虑输入视图和目标视图之间的视角变化。(b)在自底向上路径中,我们将目标视点的RGB-D编码为3D特征云。(c)给定连续三维世界坐标(X;Y;Z),通过三线插值推断其内嵌代码v(X;Y;Z),全连通网络将坐标和内嵌代码映射到位置(X;Y;(d)三维度量学习损失将两个点云表示连接在一起。

3D对象跟踪使用CoCoNets

考虑到t = 0时目标的裁剪RGB-D图像Iobj,我们的模型推断出3D目标特征地图Mobj,并使用目标的点云xyz0进行查询,获得目标点特征。同样,在时间步长t处得到整个场景的点特征。最后,将这些特征进行互相关联得到xyzN,其中xyzN中的每一个第i个点都是与xyz0中第i个点的特征最匹配的场景中的点。然后在xyz0和xyzN上应用RANSAC,得到时间步长t时汽车的位置。

实验结果

自我监督的3D对象跟踪

在第一列和第二列中,我们可视化了第一帧的RGB和深度,这是作为模型的输入,以及指定要跟踪的对象的3D框。在第三列中,我们通过将我们推断的点特征投影到相同的RGB图像,然后进行PCA压缩来可视化我们的点特征。在最后两列中,我们显示了估计和地面真实轨迹。前三行显示了我们在CARLA上的结果;下面三行显示了我们的KITTI结果。

我们比较了CLEVR[20]数据集上的CoCoNets、GQN[7]和GRNN[50]。

结论

我们提出了一种学习三维视觉特征表示的方法,通过自监督的视图和深度预测从定态RGB和RGB- d图像。我们的网络将输入的2.5维物体和场景图像提升到潜在的e维函数网格中,可解码为无限分辨率的三维占用和三维特征预测。我们的网络是通过使用对比互信息最大化目标来预测视图来训练的。我们评估了在动态场景下的三维物体跟踪以及在交叉视图和交叉对象对齐估计中出现的三维视觉特征表示。我们的经验证明,这些特征在语义上是有意义的,并且优于不考虑3D完成的基于点的监督[54],以及受3D特征网格空间分辨率限制的离散体素3D潜在特征地图[16,15]。此外,与不编码三维结构[7]或不包含三维卷积模块[44]的网络相比,我们的模型能更好地推广到物体数量和外观不可见的新场景。他们向模态三维特征表示的自我监督学习迈出了一步,我们表明这对三维目标跟踪和对应是有用的。未来的工作包括直接从动态视频中学习这些表现,放松自我情绪和深度监督。

论文链接:https://arxiv.org/pdf/2104.03851.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

(0)

相关推荐