PointNet:三维点云分割与分类的深度学习—概述
本文是关于PointNet点云深度学习的翻译与理解,PointNet是一种直接处理点云的新型神经网络,它很好地体现了输入点云的序列不变性。
摘要
点云是一种重要的几何数据结构类型。由于其数据格式不规则,大多数研究人员将这些数据转换为规则的三维体素网格或图像集合。但是,这会导致数据不必要地变得庞大, 并导致一些问题。在本文中,我们设计了一种直接处理点云的新型神经网络,它很好地体现了输入点云的序列不变性。命名为 PointNet,从对象分类,部分分割到场景语义分析等方面提供了一个完整的体系结构。虽然简单,但 PointNet是高效且有效。从经验上讲,它表现出很强的 PAR 水平,甚在至比现有技术更好。理论上,我们提供分析以了解网络已经学到了什么,以及为什么网络在输入扰动和鲁棒性方面是强健的。
1.介绍
在本文中,我们探讨深度学习架构,可以学习和理解三维几何数据(如点云或网格)的。典型的卷积架构需要高度规则的输入数据格式,如图像网格或三维体素,以便执行权重共享和其他内核优化。由于点云或网格不是常规格式,因此大多数研究人员通常会将这些数据转换为常规 3D 体素网格或图像集合(例如视图),然后将这些数据馈送到深层网络体系结构。然而, 这一数据结构的转变为规则的网格点云,使不必要的数据的引入,使得数据量变大, 导致产生的数据不必要的海量, 同时也会引入可以模糊数据自然不变性的量化伪像。
出于这个原因,我们专注于使用简单点云的三维几何体的不同输入表示,并将我们生成的深层网络命名为 PointNet。 输入点云是简单而统一的结构,可以避免网格的组合不规则性和复杂性的情况,因此更容易学习。然而, PointNet 仍然必须尊重这样一个事实,即点云仅仅是一组点,因此对其成员的排列是不的,因此在净计算中需要一定的对称性。还需要考虑进一步的刚体运动的不变性。
图 1. PointNet 的应用,我们提出了一种新颖的深层网络体系结构,它利用原始点云(点集)而不需要体素化或渲染。它是一个统一的架构,可以学习全局和局部点特征,为大量 3D 识别任务提供简单,高效和有效的方法
我们的 PointNet 是一个统一的体系结构,它直接将点云作为输入,并为输入的每个点输出整个输入的每个分类标签或每个点分段/每个部分标签。我们网络的基本架构非常简单,因为在初始阶段,每个点都被相同和独立地处理。在基本设置中,每个点仅由其三个坐标(x, y, z) 表示。可以通过计算法线和其他本地或全局特征来添加其他维度。
我们的方法的关键是使用一个单一的对称函数, max pooling。实际上,是深度网络有效地学习一组优化函数/标准,选择点云的角点或信息点并对其选择原因进行编码。网络的最终全连接层将这些学习到的最优值汇总为上述整体形状的全局描述符(形状分类)或用于预测每个点标签(形状分割)。
我们的输入格式很容易应用刚性或仿射变换,因为每个点都独立 变换。因此,我们可以添加一个依赖数据的空间变换网络,在PointNet 处理它们之前尝试对数据进行规范化处理,以便进一步改
进结果。
我们既提供了理论分析,也提供了对我们对实验评估的方法。我们显示我们的网络可以近似任何连续的设置功能。更有意思的是,事实证明,我们的网络学习通过一组稀疏的关键点来总结一个输入点云,这些关键点根据可视化大致对应于对象的骨架。理论分析提供了一个理解为什么我们的 PointNet 对输入点的小扰动以及通过点插入(异常值)或删除(缺失数据) 具有很强的鲁棒性。
在从形状分类, 部分分割到场景分割的许多基准数据集上,我们通过实验将我们的 PointNet 与基于多视图和体积表示的最先进方法进行比较。 在一个统一的体系结构下,我们的 PointNet 不仅速度更快,而且表现的性能很好,甚至比现有技术更好。
我们工作的主要贡献如下:
01
设计了一种适合在 3D 中利用无序点集的新型深层网络体系结构;
02
展示如何训练这样的网络来执行 3D 形状分类,形状部分分割和场景语义分析任务;
03
对我们的方法的稳定性和效率提供全面的经验和理论分析;
04
举例说明由网络中所选神经元计算出的 3D 特征,并为其性能提供直观的解释。
神经网络处理无序集合的问题是一个非常普遍的基本问题 - 我们期望我们的想法也可以转移到其他领域。
文/编辑 by dianyunPCL博主
分享者 by 湖大claire