2021CVPR 3D目标检测论文——HVPR

2024-05-05 09:56:45

0 基本信息

论文来源：2021 CVPR

1 Abstract

Voxel-based方法可以有效地提取目标特征，但不能保存目标细粒度的3D结构；Point-based特征可以更准确地表示3D结构，但计算量大。因此，本文提出新的single-stage的3D目标检测框架，同时包括Voxel-based和Point-based的优点。HVPR，可以有效的将二者特征集成到单一3D表示。具体而言，先通过memory模块来增强Point-based特征，以降低计算成本；然后，聚合memory中的特征，在语义上类似于每个Voxel-based的特征，以获得伪图像形式的混合3D表示。考虑到点云的稀疏和不规则性，还提出了一个注意力多尺度特征模块(AMFM)，以提取尺度感知特征。最终在KITTI数据上性能和速度表现良好。

2 Introduction

本文提出了single-stage 3D检测框架，有效地集成了Voxel-based和Point-based的特征，以获得有区别的3D表示。为此，我们提出HVPR，它由一个Voxel-based和Point-based特征的双流编码器和一个memory模块组成。用memory模块增强Point-based特征的编码器，即在训练过程中更新和存储Point-based特征，从编码器到memory模块，且在测试时不使用编码器，避免了大量的计算。具体而言，聚合memory模块中的point-wise特征，语义上类似于每个Voxel-based的特征，以获得伪图像表示，从而有效地利用混合3D表示，Voxel-based特征和Point-based特征互补，有助于从稀疏点云中检测小目标或者遮挡目标。此外，还提出了一个注意力多尺度特征模块(AMFM)，针对混合伪图像，提取多尺度特征，AMFM使用3D尺度表示进行refine，获得尺度感知特征。

具体贡献如下：

提出一个新的使用混合3D表示的single-stage 3D目标检测框架，利用memory模块增强point-based的特征，减少计算；
提出AMFM模块，以获得尺度感知的特征；
在KITTI数据集上性能和速度表现良好，速度达36.1FPS。

3 Related Work

基于多传感器融合：MV3D、AVOD、EPNet、3D-CVF等；
基于LIDAR点云：associate-3Ddet、pointpillars、HVNet、PointNet等
Memory networks；

4 Approach

模型主要包括3个模块：HVPR网络、带AMFM模块的backbone以及检测头。

对于HVPR网络：输入点云，输出为伪图像形式的混合voxel-point表示。因此，设计了一个双流编码器来分别提取voxel-based和point-based的特征。对于每个voxel-based特征，根据其相似性聚合point-based的特征，并得到混合voxel-point表示。然而，提取point-base特征计算量巨大，因此我们使用memory模块增强point-base特征，具体而言：在内存项目中存储各种point-base特征的原型，并聚合内存中的原型特征以获得voxel-memory表示。通过鼓励聚合原型和point-base特征相似来更新内存项，且只在测试时使用voxel-memory表示，而不是直接使用point-base表示，实现了快速目标检测。
对于backbone：输入是以伪图像形式的voxel-memory表示，并提取多尺度特征图。AMFM使用3D尺度表示来refine特征图，并提供尺度感知的特征。
检测头：使用尺度感知特征预测目标3D Bbox和类别。

4.1 HVPR Network

Voxel-based feature：与PointPillars类似，在x-y平面将点云体素化，再用一个微型PointNet作为编码器提取voxel-based特征，再使用max-pooling函数聚合特征，得到C*N的特征图

Point-based feature：基于PointNet++提取point-based的特征。

4.1.1 Voxel-point representation

集成point-based和voxel-based的特征获得混合voxel-point表示。因此，对所有point-based和voxel-based的特征进行点乘，得到相关性映射。

对于每个voxel-based的特征，根据相关分数选择最近的K个point-based特征。然后，计算point-based和voxel-based特征间的匹配概率（matching probabilities）:

最后，聚合最近的K个point-based特征与相应的匹配概率:

它在语义上类似于相应的voxel-based的对象，但包含了更准确的目标的3D结构信息，因此可以将具有细粒度的3D表示加给voxel-based的特征。

（即：该特征既包括了体素的特征，又包括了该体素周围最近K个点的特征，信息更丰富，检测结果肯定也更好）

4.1.2 Voxel-memory representation

如上表所示，基于PointNet++提取point-based特征会花费大量时间（加入point-based特征后，耗时由39.5HZ增加到6.8HZ）。为解决这个问题，本文使用一个memory模块来增强point-based特征，其中每个内存项存储这些特性的各种原型，以获得voxel-memory表示。

具体而言，本文将内存视为一组point-based特征的原型。使用voxel-based特征进行查询，以读取内存项。然后，计算voxel-based特征和内存项之间的匹配概率，并聚合每个voxel-based特征的相应概率的前K项，这类似于上文中聚合的point-based特征。再将voxel-based特征与聚合项连接，并将连接的特征分散到原始的voxel位置，形成一个voxel-memory的伪图像。

以下列要求更新内存项：

4.2 backbone with AMFM

输入为voxel-memory形式伪图像；输出为多尺度特征图。AMFM利用空间注意力映射refine特征图，得到尺度感知的特征图。

AMFM：AMFM利用3D尺度信息提供尺度感知特征，即：利用空间注意力映射显式的利用3D尺度特征，抑制无用信息，通过将多尺度特征与注意力映射进行element-wise相乘refine原特征图，再利用skip-connection连接原特征图和refine后的特征图。

我们观察到3D点云是稀疏的，其密度随LIDAR传感器距离变化而变化。即，点云的稀疏和不规则性以及它们与传感器的距离反映了3D物体的尺度信息。基于此，我们用一个体素内的点云的数量以及每个体素上平均点云的绝对位置及其与传感器的距离来表示每个体素。然后利用PointNet作为编码器获取voxel-based的特征，再将voxel-wise特征散回原始位置，以获得与voxel-memory伪图像大小相同的3D尺度特征图。

对于空间注意力映射，沿着通道维度运用max-pooling和average-pooling，以强调特征中有用信息。

4.3 检测头和损失

利用SSD完成最终检测。损失函数包括4个部分：回归损失（位置和方向）、分类损失以及memory更新项。

5 Experiment

实验部分表明：本文提出的方法在速度和精度上取得了较好的结果。

消融实验表明：memory模块在很大程度上减少了point-based特征的计算时间；且本文提出的模块均有效的提升了检测精度。

CVPR2021｜引入记忆模块，突破长距离依赖视频预测的性能瓶颈

Video Prediction Recalling Long-term Motion Context via Memory Alignment Learning 论文:https://arxiv.o ...
Open3d学习计划—高级篇 2（彩色点云配准）

Open3D是一个开源库,支持快速开发和处理3D数据.Open3D在c++和Python中公开了一组精心选择的数据结构和算法.后端是高度优化的,并且是为并行化而设置的. 本系列学习计划有Blue同学作 ...
Open3d学习计划—高级篇 3（点云全局配准）

Open3D是一个开源库,支持快速开发和处理3D数据.Open3D在c++和Python中公开了一组精心选择的数据结构和算法.后端是高度优化的,并且是为并行化而设置的. 本系列学习计划有Blue同学作 ...
TIP2021| 视频超分辨率中的多级特征融合网络

介绍一篇视频超分辨率新论文 Multi-Stage Feature Fusion Network for Video Super-Resolution . 论文链接: https://ieeexplo ...
传统图像处理与深度学习又一结合：时空多尺度非局部自相似集成视频超分

作者丨Happy 编辑丨极市平台极市导读本文将传统图像处理中的自相似性.金字塔等思路与深度学习相结合进行视频超分,得到了SOTA指标,并为传统图像处理思路与深度学习提供了一个新的结合点.>& ...
【时空序列预测第十三篇】时空序列预测模型之Self-Attention ConvLSTM

一. Address 来自于清华大学的一篇文章,收录于AAAI 2020的论文:Self-Attention ConvLSTM for Spatiotemporal Prediction. 论文地址: ...
CVPR 2019 行人检测新思路：高级语义特征检测取得精度新突破

论文作者信息: 作者分别来自国防科技大学.中科院自动化所.阿联酋起源人工智能研究院和地平线机器人公司. 算法思想特征检测是计算机视觉中常用算法,比如我们所熟知的边缘检测.Blob检测,简单点说就是检 ...
Open3d学习计划—高级篇 4（多视角点云配准）

Open3D是一个开源库,支持快速开发和处理3D数据.Open3D在c++和Python中公开了一组精心选择的数据结构和算法.后端是高度优化的,并且是为并行化而设置的. 本系列学习计划有Blue同学作 ...
CVPR2019| 04-30更新23篇论文及代码合集（3篇oral，含3D目标检测/语义分割/动作识别等）

前段时间,计算机视觉顶会CVPR 2019 公布了接收结果,极市也对此做了相关报道:1300篇!CVPR2019接收结果公布,你中了吗?.目前官方已公布了接收论文列表,极市已汇总目前公开的所有论文链接 ...
CVPR2019 | 03-27日更新12篇论文及代码汇总（多目标跟踪、3D目标检测、分割等）

前段时间,计算机视觉顶会CVPR 2019 公布了接收结果,极市也对此做了相关报道:1300篇!CVPR2019接收结果公布,你中了吗?.目前官方只公布了接收论文ID列表,极市已汇总目前公开的所有论文 ...
3D目标检测上运用三重注意力机制的先驱——TANet(2020AAAI)

0 基本信息论文来源:2020 AAAI 1 Abstract 本文关注的是点云3D目标检测中鲁棒性的问题.我们关注到2个问题: 对行人等 hard目标的检测精度不高: 增加额外的噪声时,现有方法的 ...
综述：基于点云的自动驾驶3D目标检测和分类方法

作者丨Z 审稿丨邓富城编辑丨极市平台极市导读本文基于现有的自动驾驶中利用3D点云数据进行目标检测的文献,从数据特征提取和目标检测模型等方面对不同技术进行比较. >>加入极市CV技术交 ...
2020 CVPR——达摩院联合港理工推出3D目标检测框架SA-SSD

0 基本信息论文来源:2020 CVPR 1 Motivation 单阶段检测框架速度快,但精度低:二阶段检测框架精度高,但速度慢.分析后发现,单阶段检测框架精度低的原因在于通过卷积持续下采样损失点 ...
3D目标检测：MV3D-Net

标题:Multi-View 3D Object Detection Network for Autonomous Driving 来源:https://zhuanlan.zhihu.com/p/863 ...
一文看尽 27 篇 CVPR2021 2D 目标检测论文

作者丨二玖编辑丨极市平台极市导读本文对我们汇总的 CVPR 2021 检测大类中的2D目标检测领域的论文进行了盘点,将会依次阐述每篇论文的方法思路和亮点.在极市平台回复"CVPR21检 ...
不用激光雷达，照样又快又准！3D目标检测之SMOKE

向大家介绍一篇CVPR 2020 Workshop的文章:SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimati ...
3D目标检测综述：从数据集到2D和3D方法

导读:本文概述性地总结了一些当前最佳的目标检测相关的研究.主要内容包括目标检测任务常用的数据格式,目标检测与2D目标检测相关的技术以及概括性的讨论3D目标检测这一主题. 目标检测一直是计算机视觉领域 ...