【泡泡图灵智库】连续3DLOSS单目深度感知

泡泡图灵智库,带你精读机器人顶级会议文章

标题:Monocular Depth Prediction through Continuous 3D Loss

作者:Minghan Zhu1, Maani Ghaffari1, Yuanxin Zhong1, Pingping Lu1,Zhong Cao2, Ryan M. Eustice1 and Huei Peng

机构:1University of Michigan,Tsinghua University

来源:IROS 2020

编译 : 万应才

审核:wyc

这是泡泡图灵智库推送的第 545篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

大家好,今天为大家带来的文章是Monocular Depth Prediction through Continuous 3D Loss

本文提出了一种新的用于单目图像深度学习的连续3D损失函数。在单目图像的稠密深度预测中,使用稀疏激光雷达点,这使我们能够在训练期间利用可用的开放源代码数据集与相机激光雷达传感器。目前,精确和经济的深度传感器并不容易获得。立体相机和激光雷达测量深度不准确或稀疏/昂贵。与现有的点对点损失评估方法不同,该方法将点云视为连续的目标,从而弥补了由于激光雷达的稀疏测量而缺乏密集的地面真实深度。我们将提出的损失函数用于三种最先进的单目深度预测方法DORN、BTS和Monodepth2。实验结果表明,与所有测试基线相比,该损失提高了深度预测精度,生成的点云具有更为一致的三维几何结构,这意味着该损失对一般深度预测网络是有益的。

背景与贡献

我们作出以下贡献:

1) 提出了一种新的用于单目深度预测的连续三维损失函数。

2) 通过在几种最先进的单目深度预测方法[4]–[6]中加入这种损失,而不修改网络结构,我们在原始激光雷达点的监督下,与KITTI数据集上的所有这些基线方法相比,我们获得了更精确和更具几何合理性的深度预测。

3) 我们的工作是开源在https://github.com/minghaz/c3d。

算法流程

1.整体框架

激光雷达和相机传感器捕捉到的信息是以点和像素为单位对真实环境进行离散化采样。这两种传感器的离散化是不同的,通常将它们关联起来的方法是将激光雷达点投影到图像框上。这种方法有两个缺点。首先,根据舍入误差和前景背景混合误差,为激光雷达点分配像素位置是一种近似值[40]。其次,激光雷达点比图像像素稀疏得多,这意味着监督信号仅从图像的一小部分传播,并且由于激光雷达的局限性,具有某些特征(例如反射、黑暗、透明)的表面经常被忽略。

为了解决第一个问题,我们在三维空间中而不是在图像帧中评估所提出的损失函数。具体来说,我们使用预测的深度来测量激光雷达点云和图像像素点云之间的差异。这种方法与文献[32]相似,后者将ICP的距离度量用于深度学习。然而,由于ICP需要点对的关联,该方法仍然存在离散化问题。当两个点云都来自图像像素时,这个问题可能并不突出,但在使用稀疏激光雷达点云时,这个问题很重要。

我们提出将点云转化为一个连续函数,这样学习问题就变成了由LIDAR点云和图像深度(点云)引起的两个函数的对齐问题。。

2. 方法

2.1  3D点云构建

设Z为LIDAR点云,作为地面真实点,X为深度为图像像素的点云。然后,我们将连续3D损失函数表示为:

2.2 连续3D loss

不同于文献[41]的目的是在李群中寻找最佳变换来对齐两个函数,我们对X上的点进行运算。

第二个特征是曲面法线,表示为ξn,我们使用加权点积作为法线特征的内积

与其他类型的损耗相比,LC3D中的指数运算会导致非常大的损失。为了数值稳定性,我们在实际中使用了三维损失的对数,连续的3D损失可以用于交叉帧监控,在这种情况下,摄像机的相对姿态也会发挥作用。例如,我们可以表示:

2.3 网络构建

为了评估连续3D损失函数的影响,我们修改了三种最新的单目深度预测方法:Monodepth2[6],DORN[4],BTS[5],方法简单地将所提出的损失函数作为额外损失项。DORN和BTS是一种监督深度预测方法,与我们的工作密切相关。MonoDepth2最初是一种无监督方法,我们包括这一方法,以证明我们的提议损耗在光度损失存在时仍然有效。为了进行公平比较,我们在Monodepth2中添加了L1深度损失,以便监督所有基线。

主要结果

图2 图2中圈出的车辆的点云可视化。从上到下:由图像着色的原始激光雷达,由DORN[4]、BTS[5]、Monodepth2[6]和我们的方法生成的点云。四列分别对应于图2中的A、B、C、D

表1 结果对比

表2 加入法线之后对于深度估计的提升

图3 表面法向量核效应的可视化。除第一列外,左侧图像为曲面法线,右侧显示相应的预测深度图像。

相关资源

视频:https://youtu.be/5HL8BjSAY4Y

Code:https://github.com/minghanz/c3d

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号

(0)

相关推荐