【泡泡图灵智库】IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测 / 开普饭

泡泡图灵智库，带你精读机器人顶级会议文章

标题：IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving

作者：Wanli Peng∗ Hao Pan∗ He Liu Yi Sun†Dalian

机构：University of Technology, China

来源：CVPR 2020

编译 : 万应才

审核：wyc

摘要

大家好，今天为大家带来的文章是IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving

三维目标检测是自主驾驶和虚拟现实中一项重要的场景理解任务。基于激光雷达技术的方法效率比较高，但是激光雷达价格昂贵。考虑到更一般的场景，在三维数据集中没有激光雷达数据的情况下，我们提出了一种基于立体视觉的三维目标检测方法，该方法不依赖于激光雷达数据作为输入，也不依赖于作为训练的监督，而只以带有相应标注的三维边界框的RGB图像作为训练数据。由于目标的深度估计是影响三维目标检测性能的关键因素，本文介绍了一个实例深度提取（IDA）模块，该模块通过实例深度感知、视差自适应和匹配代价重加权，准确地预测出三维包围盒中心的深度。此外，我们的模型是一个端到端的学习框架，不需要多阶段或后处理算法。我们对KITTI基准进行了详细的实验，并与现有的基于图像的方法进行了比较，取得了令人印象深刻的改进。

背景与贡献

单目生成双目

随着最近几年单目深度的发展，从单张图像预测深度的精度越来越高，但是相比双目匹配算法(stereo match)依然有差距。作者提出一种单目生成双目图像然后用双目匹配算法。单目生成双目方法原理是通过预测的单目深度设置一个虚拟的基线然后将原图生成为双目的另一图像。

我们作出以下贡献：

1.我们提出了一个基于双目的三维物体检测端到端学习框架，该框架不依赖于深度图像作为输入或训练，也不需要多阶段或后处理算法。

2.我们引入了实例深度感知(IDA)模块，该模块通过实例深度感知、视差自适应和匹配成本重加权，准确预测三维边界框中心的深度，从而提高了三维对象检测的准确性。

3.我们提供了KITTI 3D数据集[7]上的详细实验，与没有深度地图监督的基于双目的方法相比，达到了最先进的性能。

算法流程

1.整体结构

本文提出了一种立体三维物体检测方法，其训练数据仅为带有相应标注的三维边界盒的RGB图像，不以激光雷达获取的深度作为输入，也不作为中间监督。本文提出方法不用手工设计立体视觉算法的任何步骤，而是使用深度学习学习从图像对到物体三维边界盒的端到端映射。我们认识到三维物体检测误差完全来自于三维边界盒中心深度估计z的误差，而不是将机器学习架构构建为一个黑盒子，因此我们单独设计一个回归模型来获得实例深度。在本文中，三维边界盒中心的坐标z也称为实例深度。此外，我们通过实例深度感知、视差适应和匹配代价重估来指导目标深度估计的结构设计。因此，我们学习了一种有效的实例深度感知三维物体检测模型(IDA-3D)。

图1 整体结构本文提出的IDA-3D概述。Top: Stereo RPN以一对左右图像作为输入和输出对应的左右建议对。通过立体RPN，预测三维包围盒的位置、尺寸和方向。Bottom: Instance-depth-aware模块构建一个4D cost volume，并执行3DCNN来估算一个3D边框中心的深度。

2. 方法

本文首先提取一条感兴趣的区域(RoI)为每一个对象在左右图像的立体的RPN模块受[14],其目的是为了避免复杂的左派和右派之间的所有像素匹配图像和消除不利影响的背景对象检测。stereo RPN为左右图像中大小和位置相同的每个对象创建一个联合RoI，以确保每对RoI的起始点。在应用RoIAlign[8]分别在左和右特征图,左边和右边RoI特征然后连接和送入立体声回归网络预测的位置,方向和尺寸的3 d边界框,分别在3 d边界框的位置可以用其中心位置(x, y, z)。自3 d对象的中心有一个大动态范围的深度及其偏差占大多数的差异3 d对象检测,在本文中，我们单独设计了IDA模块来获取一个三维边界盒中心的深度，也称为实例深度。在立体回归网络中，我们还预测了二维边界盒作为推理时IDA模块的输入。

2.1 实例 Instance Disparity (Depth) Estimation

我们使用了两个连续的三维卷积层，每个层之后是一个三维最大池化层，以学习和执行从成本量中对特征表示的向下采样。由于视差与深度成反比，且均表示物体的位置，我们将视差转换为深度表示后，形成成本体积。依靠网络正则化，最终将3D CNN下采样的特征合并为3D box center的深度概率。将每个深度z按其归一化概率加权求和，最终得到三维盒中心的深度，如公式1所示，其中N为深度级别数，P (i)为归一化概率。

图2 IDA模型的参数。D表示深度级别的数目。

2.3 Instance Disparity (Depth) Adaptation

以往的研究大多是对视差估计的精度进行优化。而对于相同视差误差，深度误差随距离呈二次增长。这意味着视差误差对远目标深度估计的影响大于近目标深度估计的影响。这是导致3D对象检测效果不佳的关键因素。为了使模型和损失函数更侧重于远处的目标，我们将成本量中的视差等级由均匀量化改变为非均匀量化，即目标距离越远，相邻两个视差等级之间的划分单元越小。这样，就可以更精确地估计一个遥远物体的深度。

图3 偏差与深度的关系

2.4 Matching Cost Reweighting

为了惩罚不是对象实例唯一的深度级别，并提升具有高概率的深度级别，我们重新设置匹配代价的权重。权重分为两部分,第一部分(成本4 d所示的图1)4 d体积包装左派和右派之间的差异特征映射特征图在每个差距水平和第二部分(见图1中的3 dcnn) 3 dcnn用人机制的深度关注。带有这些残差feature map的4D体会使后续的3D CNN考虑到一定深度级别左右feature map的差异，细化深度估计，而视差注意机制则设置每个channel的权重ri。通过计算各视差上左右特征图的相关性得到的相关分数ri定义为:

2.5 3D Object Detection

我们设计了一个六平行的全连接网络，并以左右连接的RoI特征作为输入。在确定了实例的深度后，可以根据其投影计算出左摄像机坐标系中物体中心的坐标(x, y)，其中(cu, cv)为摄像机中心，fu, fv为水平焦距和垂直焦距。从Eq. 5中可以看出，深度估计的结果会影响对三维盒中心水平和垂直位置的估计，这说明深度估计在物体检测中起到了重要的作用。

图4 目标导向与视角导向之间的关系

主要结果

表1 KITTI验证集上car类的APbev / AP3D (in %)，其中S为输入双目图像对，M为输入单目图像。

图5 在KITTI数据集中对几个场景的定量结果。第一行是ground truth 3D box和投影到图像平面的预测3D box。为了便于观察，我们还将检测结果显示在点云上。预测结果用黄色表示，地面真实值用蓝色表示。

图 6不同视差量化策略的深度估计误差。

图7 匹配成本调整权重的改进。

【泡泡图灵智库】IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

相关推荐