基于深度连续融合的多传感器三维目标检测

重磅干货,第一时间送达

单眼视觉系统以低成本高性能实现令人满意的效果,但无法提供可靠的3D几何信息。双目摄像机可以提供3D几何信息,但是它们的计算成本很高,并且无法在高遮挡和无纹理的环境中可靠地工作。另外,该系统在复杂的照明条件下鲁棒性较低,这限制了其全天候能力。激光雷达不受光照条件的影响,可以提供高精度的3D几何信息。但是它的分辨率和刷新率很低,而且成本很高。

Camera-Lidar融合提高了性能和可靠性并降低了成本,但这并不容易。首先,相机通过将现实世界投影到相机平面上来记录信息,而点云以原始坐标的形式存储几何信息。此外,就数据结构和类型而言,点云是不规则,无序和连续的,而图像是规则,有序和离散的。这导致图像和点云处理算法的巨大差异。

参考文献中 [1] 提出了一种新颖的3D目标检测器,它可以利用激光雷达和摄像机进行非常精确的定位。为了实现这一目标,他们设计了一种端到端的可学习架构,该架构利用连续卷积融合不同分辨率级别的图像和LIDAR特征图。这使我们能够设计基于多个传感器的新颖,可靠,高效的端到端可学习3D对象检测器。

模型架构

总体架构包括两个流,其中一个流从LIDAR鸟瞰图(BEV)提取图像特征,另一流从LIDAR鸟瞰图(BEV)提取特征,它们设计了一个连续融合层以桥接两侧的多个中间层,从而执行多传感器融合在多个尺度上。

首先,使用ResNet18分别提取图像流和点云流(BEV)中的特征,然后对图像特征执行多尺度融合,并使用连续融合层将多尺度图像特征融合到图像的四个残差组中。

连续融合层

给定输入的摄像机图像特征图和一组LIDAR点,连续融合层的目标是创建一个密集的BEV特征图,其中每个离散像素都包含从摄像机图像生成的特征。对于密集地图中的每个目标像素,使用欧几里得距离找到其在2D BEV平面上最接近的K个LIDAR点,然后反向投影到3D空间,然后将这k个点投影到相机视图中,并找到与每个点,然后利用MLP融合来自这K个最近点的信息,以在目标像素处插值未观察到的特征。

对于每个目标像素,MLP通过对其所有邻居的MLP输出求和来输出D_o维输出特征。也就是说:

其中fj是点j的输入图像特征,xj-xi是从相邻点j到目标i的3D偏移,而concat(·)是多个向量的串联。然后,通过元素逐级求和将MLP的输出功能与前一层的BEV功能进行组合,以融合多传感器信息。

他们使用简单的检测头来提高实时效率。在最终的BEV层上计算一个1×1卷积层以生成检测输出。在每个输出位置,他们使用两个具有固定大小和两个方向的锚,分别为0和π/ 2弧度。

每个锚点的输出包括每个像素类的置信度及其关联的框的中心位置,大小和方向。接下来是非最大抑制(NMS)层,基于输出映射生成最终对象框。损失函数定义为分类损失和回归损失之和。

参考文献 [1] 在KITTI和TOR4D数据集上评估了其多传感器3D目标检测方法。在KITTI数据集上,与3D目标检测和BEV目标检测中的现有高级方法进行了比较,并进行了模型简化测试,并比较了不同的模型设计。在TOR4D数据集上,此方法在长距离(> 60m)检测中特别有效,这在自动驾驶的定时和目标检测系统中起着重要作用。

结论

对于BEV检测,此模型比中度AP测得的所有其他方法要好。对于3D检测,此模型排名第三,但在简单子集中具有最佳AP。在保持高检测精度的同时,该模型可以实时高效运行。检测器以大于每秒15帧的速度运行,这比其他基于LIDAR和基于融合的方法要快得多。

参考文献

[1] Ming Liang, Bin Yang , Shenlong Wang , and Raquel Urtasun .Deep Continuous Fusion for Multi-Sensor 3D Object Detection

下载1:OpenCV-Contrib扩展模块中文版教程
(0)

相关推荐