TUM大牛组最新工作：不需要3D包围盒，单目实现3D车辆检测！ / 开普饭

快速获得最新干货

Learning Monocular 3D Vehicle Detection without 3D Bounding Box Labels

Technical University of Munich ,Artisense

来源：GCPR 2020

编译：wyc

1摘要

基于深度学习的三维物体探测器的训练需要三维边界框标签的大数据集，这些数据集必须通过手工标记生成。我们提出了一个学习无三维边界盒标签的单目三维目标检测的网络结构和训练过程。通过将物体表示为三角形网格并采用可微形状绘制，我们定义了基于深度图、分割mask以及由预先训练的现成网络生成的Ego-motion的损失函数。我们在真实世界的KITTI数据集上对所提出的算法进行了评估，并与需要三维边界框标签进行训练的最新方法相比，取得了很好的性能，并且优于传统的基线方法。

2背景及贡献

作者的灵感来自与19年的AAAI谷歌的一篇Depth prediction without the sensors: Leveraging structure for unsupervised learning from monocular videos，由此作者想到了如何通过深度估计的监督实现3D目标检测自监督从而达到舍弃3Dbox的目的。

图1 struct2depth 通过结合单目深度估计和Ego-motion联合估计3D运动物体提高图像重建精度的同时提升深度估计精度

图2 struct2depth 结果

本文提出了一种基于可微形状渲染的单目3D车辆检测器。模型的主要输入是二维分割掩模和深度图，从预先训练的现成网络中获得。因此，我们的方法不需要三维边界框标签来监督。二维地面真实和激光雷达点云只需要训练预先训练的网络。因此，我们克服了手工标记数据集的需要，这些数据集的获取很麻烦，并有助于更广泛的适用于三维目标检测。实验表明，尽管没有使用三维边界盒标签进行训练，但我们的模型仍取得了与最先进的监控单目3D目标检测相当的结果。我们进一步证明，用stereo深度代替输入的单目深度可以产生具有竞争力的立体3D检测性能，这显示了我们的3D检测框架的通用性。

3方法

图3 本文提出了一种无需三维边界盒标签的单目3D车辆检测器。右图显示预测的车辆（彩色形状）符合地面真实边界框（红色）。尽管输入深度（左下角）有噪声，但由于所提出的全微分训练方案，我们的方法能够准确地预测车辆的三维姿态。我们还显示了预测的边界框（彩色框，左上角）的投影。

3.1整体结构

图4 该模型包含单图像网络和多图像网络扩展。单图像网络将从图像中估计的输入深度映射投影到点云中。Frustum PointNet网编码器预测车辆的姿态和形状，然后通过微分渲染将其解码为预测的三维网格和分割掩模。将预测结果与输入分割掩模和反向投影点云进行比较，以定义两个LOSS。多图像网络结构以三个时间上连续的图像作为输入，单个图像网络分别应用于每个图像。我们的网络根据车辆的姿势和形状预测中间帧的深度图。一个预先训练的网络从图像中预测自我运动和物体运动。重建损失的计算是通过微分扭曲图像到中间帧。

3.2形状重表示（Shape Representation）

作者引用了Joint object pose estimation and shape reconstruction in urban street scenes using 3d shape priors中对于物体shape的描述方法。平均顶点位置用,个顶点位移矩阵用表示，将形状系数记为,将规范坐标系中的变形顶点位置记为。变形的顶点位置是线性组合:

3.3单张图像网路（Single-Image Network）

输入的深度图被反向投影到一个点云中，该点云将架构与深度源解耦，如[33]所示。用对象分割蒙版过滤点云以获得对象点云。对于单眼图像的深度图，对象点云通常在遮挡边界处具有离群值，这些离群值基于其深度值被滤除。

然后，Frustum PointNet编码器[26]预测车辆的位置，方向和形状。将形状系数z应用到规范的对象附加坐标系中，基于方程式1根据我们建议的形状流形获得变形网格。变形网格绕y轴旋转ry并通过x平移以获得参考坐标系中的网格。

分别渲染参考坐标系中的变形网格，以获得预测分割Mask 和预测深度图。合并了车辆的预测姿势和形状的渲染深度图仅在多图像网络中使用。对于输入分割蒙版定义的不属于车辆的图像区域，将输入深度图用作背景深度，否则从变形的网格渲染深度。为了渲染预测的深度图和分割掩膜，中提出的可微分渲染器的最新实现。

3.4Pose的影响

图5 MonoGRNet[27]（第一行）、Mono3D[5]（第二行）和我们的方法（第三行）与BTS[20]的深度图进行了定性比较。我们显示汽车的地面真实边界框（红色）、预测边界框（绿色）和后投影点云。与Mono3D相比，该方法的预测精度提高了，特别是对于更远的车辆。在定量评估中（参见表1），MonoGRNet和我们的模型的性能是可比较的。

3.5Loss Functions

为了训练没有三维边界框标签，我们使用三个损失，分割损失，切角距离和光度重建损失。前两个是为单个图像定义的，光度重建损失依赖于三个连续帧的时间照片一致性。总损失是每帧的单个图像损失与重建损失的加权：

其中：

Segmentation Loss

Chamfer Distance

3.4Multi-Image Reconstruction Loss

多图像网络的灵感来自于最近成功的单目图像的自监督深度预测，它依赖于将时间上连续的图像差分地扭曲到一个公共帧来定义重建损失。将单图像网络应用于同一车辆的三个连续图像，并在中间帧定义重建损失。重建损失的公式Depth prediction without the sensors所示，我们使用其预先训练的网络来估计翘曲所需的自我运动和物体运动。

实验

1.不同深度的without 3D Bbox 的3D目标检测精度

表1 不同深度来源对比研究。当使用有监督的图像代替无监督的图像到深度方法时，以及当使用立体图像代替单目图像时，该模型的平均精度提高了。我们更通用的方法在没有3D边界框标签的训练方法中表现最好，但是与使用部分3D边界框信息进行训练的立体RCNN相比，性能更差。我们的方法明显改进了常见的基线3DOP和最近的DirectShape和TLNet。立体RCNN不直接监控3D位置，而是直接监控3D边界框尺寸。此外，他们从地面真实三维边界框标签计算视点和透视关键点，并将其用于监督，因此在训练期间需要三维边界框标签。用估计的三维尺寸、视点和透视关键点替换3D-bbox标签是他们工作的一个重要扩展。

表2 使用BTS的深度图进行烧蚀研究[20]。在不使用posecd的情况下使用倒角距离会大大降低精度。学习没有三维边界框标签的姿势和形状是一个欠约束问题，性能下降（参见最后一行）。在没有多幅图像训练的情况下，BEV的性能基本相同，但在3D方面的性能有所下降。

TUM大牛组最新工作：不需要3D包围盒，单目实现3D车辆检测！

1摘要