CVPR 2020 |基用于3D目标检测的层级图网络

2024-05-26 14:35:20

论文：A Hierarchical Graph Network for 3D Object Detection on Point Clouds
论文地址：https://www.aminer.cn/pub/5eccb534e06a4c1b26a834c7?conf=cvpr2020

由于大多数现有的点云对象检测方法不能充分适应点云的特征（例如稀疏性），所以一些关键的语义信息（如物体形状）不能被很好的捕捉到。本文提出了一种基于层级图网络（HGNet）的图卷积（GConv），可以直接将点云作为输入来预测 3D 的边界框。形状注意图卷积（SA-GConv）可以通过剑魔点的位置星系来描述物体形状，基于 SA-GConv 的 U 形网络可以通过改进的 voting 模块获取多层级的特征进而生成候选，然后一个基于图卷积的候选推理模块考虑全局的场景语义来对边界框进行预测。该框架在两个大规模点云数据上的表现超过了目前最先进的模型。

论文背景

由于点云的稀疏性，一些已有的为网格形式数据设计的方法（如CNN）在点云上的表现并不好，为解决这一问题，最近有一些对点云数据的方法被提出，例如基于投影的方法、基于体卷积的方法和基于 PointNet 的方法。前两种试图将点云数据严格转换为网格结构数据，而后一种则在不明确考虑点的几何位置的情况下聚合特征。

与其他方法相比，PointNet++ 可以保留点的稀疏特点，因此被广泛作为框架的骨架。当目前仍有一些未能很好解决的挑战，首先由于没有考虑点的相对几何位置，因此使用 PointNet++ 作为主干忽略了一些局部形状信息。其次，框架的结构没有充分利用多级语义，这可能会忽略一些有助于目标检测的信息。

本文提出了一个基于图卷积（GCONV）的层级图网络（HGNet）用于基于点云的 3D 目标检测。HGNet 包含三部分：一个基于图卷积的 U 形网络（GUnet）、一个候选生成器以及一个候选推理模块（ProRe Module）。

整个 HGNet 以端到端的方式进行培训。在本文的框架中，点云的局部形状信息、多级语义和全局场景信息（候选的特征）已被层级图模型充分捕获、聚合和合并，充分考虑了点云数据的特征。

本文的主要贡献如下：
（A）开发了一种新的层级图网络（HGNet），用于在点云上进行 3D 对象检测，其表现好于已有方法。

（B）提出了一种新颖的 SA-（De）GConv，它可以有效地聚合特征并捕获点云中对象的形状信息。

（C）构建了一个新的 GU-net，用于生成多级特征，这对于 3D 对象检测至关重要。

（D）利用全局信息，ProRe 模块通过对候选进行推理来提高效果。

论文模型

融合采样

3D 目标检测有基于点和基于体素两种框架，前者更加耗时，由候选生成与预测细化两个阶段组成。

在第一个阶段，SA 用于降采样以获得更高的效率以及扩大感受野，FP 用来为降采样过程中丢掉的点传播特征。在第二阶段，一个优化模块最优化 RPN 的结果以获得更准确的预测。SA 对于提取点的特征是必需的。但 FP 和优化模块会限制效率。

形状注意图卷积

点云通常不能清楚地表示出物体的形状，可以使用其相邻点的相对几何位置来描述点周围的局部形状。本文介绍了一种新颖的形状注意图卷积，它通过对点的几何位置建模来捕获对象形状。

对于一个点集 X，其中每一个点由其集合位置 p_i 以及 D 维的特征 f_i 组成，我们想要生成一个 X’，本文设计了图卷积用于聚合从 X 到 X’ 的特征。与 PointNet++的采样层相类似，本文首先从 n 个点中采样 n’ 个点，通常 K 最近邻（KNN）被用来在采样中保留局部信息将其作为中心点特征。

其中 g 表示 i 和 j 的相对位置，通过一个卷积将三维变为一维，f 是 mlp，然后二者的乘积就是中心点的 knn，其中最大的作为 i 的特征。形状注意操作不同于简单的基于 mlp 的操作主要就是因为这个 g 函数。虽然形式上没有 attention 中的 softmax 这样的归一化，但是 g 的输出就和 attention一样，每个点的 weights，然后对应的乘以特征。

GU-net

本文设计了一个下采样模块，并将其重复堆叠 4 次以形成下采样路径，而将一个上采样模块重复堆叠两次以构成上采样方式。类似 FPN、GU-net 生成三张点特征图的特征金字塔。下采样使用的是 FPS，然后通过KNN构建局部区域，再使用 SA-GConv 更新特征，上采样模块的过程与下采样模块的过程相反，主要由 SA-GConv 执行。

候选生成器

GU-net 生成了包含多级语义的三张点特征图。一些先前的方法（如 VoteNet）仅使用一个特征图进行目标预测。即使通过在上采样过程中融合较低层的特征来计算较高层的特征，由于不同层的特征提供了各种语义，因此将多层特征一起用于候选生成会更加有益。本文提出了一种候选生成器，以改进的投票模块作为主要结构来预测对象中心，该模型将多级特征转换为相同的特征空间。接下来为了聚合特征，通过 FPS 保留 Np 的投票，该做法与 VoteNet 类似，从而融合多级特征以预测边界框及其类别。

候选推理模块

通过以上几步，多层局部的语义信息已经被很好的捕捉到了，但全局信息还没有很好的学到，或者说可能有些目标在点云中只体现出很小的一部分表面的点，在这样少的信息下很难正确的将其识别出来。其推理过程为：

其中 Hp 表示候选特征 tensor，P 表示候选的相对位置

论文实验

本文在 SUN RGB-D 和 ScanNet-V2 两个数据集上进行了实验。

此外，本文还进行了消融实验以证明各模快的有效性。

结论

本文提出了一种新颖的 HGNet 框架，该框架通过层级图建模学习语义。

具体来说，作者提出了一种新颖且轻巧的形状注意图卷积来捕获局部形状语义，该语义聚合了点的相对几何位置的特征。基于 SA-GConv 和 SA-DeGConv 构建了 GU-net，生成了包含多级语义的特征金字塔。要素金字塔投票的点将位于相应的对象中心，并且进一步聚合多级语义以生成候选。然后使用 ProRe 模块在候选之间合并和传播特征，从而利用全局场景语义来提高检测性能。最后，对边界框和类别进行了预测。

华科白翔老师团队ECCV2018 OCR论文：Mask TextSpotter

引入Mask R-CNN思想通过语义分割进行任意形状文本检测与识别. (欢迎关注"我爱计算机视觉",一个有价值有深度的公众号~) 华中科技大学白翔老师团队在自然场景文本检测与识别领 ...
使用 TensorFlow 3D 理解 3D 场景

在过去几年中 ,3D 传感器(例如,激光雷达.深度感应摄像头和雷达)的日益普及催生了对能够处理这些设备捕获的数据的场景理解技术的需求.这种技术可以使使用这些传感器的机器学习 (ML) 系统(如自动驾驶 ...
看一看实时相关推荐，满足你对同主题文章的“意犹未尽”

导语在推荐系统中,用户在一个时间段经常会关注同一个主题.当用户读完一篇文章时,他往往会想要继续阅读和这篇文章相关的拓展文章.然而,传统的推荐系统feed流难以提供这种深度的拓展阅读(相关阅读)功能. ...
知荐 | ADAS系统中的动态目标感知策略（二）

在前文中,我们从整体概念上讨论了ADAS系统中动态目标的感知策略,其中在分析计算机视觉算法解决图像分类.目标检测.语义分割等问题方面取得了重大的进展,目前大多数顶尖级的视觉算法都是基于正在快速发展的深 ...
MT：用于场景文本检测的多视角特征学习网络

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
CVPR 2019 行人检测新思路：高级语义特征检测取得精度新突破

论文作者信息: 作者分别来自国防科技大学.中科院自动化所.阿联酋起源人工智能研究院和地平线机器人公司. 算法思想特征检测是计算机视觉中常用算法,比如我们所熟知的边缘检测.Blob检测,简单点说就是检 ...
2020 CVPR——达摩院联合港理工推出3D目标检测框架SA-SSD

0 基本信息论文来源:2020 CVPR 1 Motivation 单阶段检测框架速度快,但精度低:二阶段检测框架精度高,但速度慢.分析后发现,单阶段检测框架精度低的原因在于通过卷积持续下采样损失点 ...
3D目标检测上运用三重注意力机制的先驱——TANet(2020AAAI)

0 基本信息论文来源:2020 AAAI 1 Abstract 本文关注的是点云3D目标检测中鲁棒性的问题.我们关注到2个问题: 对行人等 hard目标的检测精度不高: 增加额外的噪声时,现有方法的 ...
2021CVPR 3D目标检测论文——HVPR

0 基本信息论文来源:2021 CVPR 1 Abstract Voxel-based方法可以有效地提取目标特征,但不能保存目标细粒度的3D结构:Point-based特征可以更准确地表示3D结构, ...
综述：基于点云的自动驾驶3D目标检测和分类方法

作者丨Z 审稿丨邓富城编辑丨极市平台极市导读本文基于现有的自动驾驶中利用3D点云数据进行目标检测的文献,从数据特征提取和目标检测模型等方面对不同技术进行比较. >>加入极市CV技术交 ...
3D目标检测：MV3D-Net

标题:Multi-View 3D Object Detection Network for Autonomous Driving 来源:https://zhuanlan.zhihu.com/p/863 ...
不用激光雷达，照样又快又准！3D目标检测之SMOKE

向大家介绍一篇CVPR 2020 Workshop的文章:SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimati ...
3D目标检测综述：从数据集到2D和3D方法

导读:本文概述性地总结了一些当前最佳的目标检测相关的研究.主要内容包括目标检测任务常用的数据格式,目标检测与2D目标检测相关的技术以及概括性的讨论3D目标检测这一主题. 目标检测一直是计算机视觉领域 ...
用于道路目标检测的少镜头学习

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
CVPR2019| 04-30更新23篇论文及代码合集（3篇oral，含3D目标检测/语义分割/动作识别等）

前段时间,计算机视觉顶会CVPR 2019 公布了接收结果,极市也对此做了相关报道:1300篇!CVPR2019接收结果公布,你中了吗?.目前官方已公布了接收论文列表,极市已汇总目前公开的所有论文链接 ...

CVPR 2020 |基用于3D目标检测的层级图网络

相关推荐