【知识星球】3D网络结构解读系列上新
欢迎大家来到《知识星球》专栏,这两天有三AI知识星球专注更新3D相关的网络模型解读,共10期左右。3D网络在视频数据,点云图像,3D医学图像,光流估计等领域有重要的作用,是当前的一类主流模型。
作者&编辑 | 言有三
有三AI知识星球-网络结构1000变
PointNet
点云就是一些三维点的集合,处理点云技术需要三维的卷积架构,早期处理点云首先将其转换为有固定顺序的三维晶格,然后用普通的三维卷积网络处理,但是这种转换往往带来副作用。PointNet是首个直接处理无序点云数据的网络,可以用于点云分类和分割任务,取得了很好的效果。
作者/编辑 言有三
点云数据是一组无序的向量集合,若不考虑其他诸如颜色等因素,只考虑点的坐标,相同的点云可以由两个完全不同的矩阵表示。有N个点的点云,实际上有N!种排序,对于没有固定规则的排序,卷积神经网络CNN中的权重共享等策略就无法应用,因此CNN无法直接应用于点云数据。
要使得网络对点云的这些输入组合输出相同的结果,有三种常见思路。其一是按照坐标进行排序,但是排序方法也不是唯一和稳定的。其二就是将所有的排序组合作为一个序列输入RNN等网络,但这样显然计算效率极低。其三就是设计一些函数,使其输出对输入的顺序不敏感,这就是PointNet的处理思路。
网络结构如下:
以上网络包含了两个重要的技术:
(1) 使用maxpooling解决无序性问题。特征提取网络得到的特征为n×1024,使用maxpooling将其变成1x1024的全局特征,然后送入分类网络。
(1) 使用空间变换网络获取空间转换不变性。利用网络学习点云本身的位姿信息,得到旋转矩阵,图中包括两次。第一次是input transform,它对空间中的点云进行旋转调整后得到更有利于任务的角度,变换矩阵为3×3,这属于数据预处理。第二次是feature transform,它将提取出的64维特征进行对齐,变换矩阵为64×64。由于变换矩阵过大,通过添加正则项,使变换矩阵近似于正交矩阵,从而大大降低参数量。
如果是分割问题,则将feature transform后的特征和全局特征进行concat得到特征,然后输入分割模块。
以上是该方法和其他主流模型在3D形状数据集Model40上的分类结果,除了多视角模型之外,有较大的性能优势。
上图展示的是Kinect数据集和Model40的分割结果。
更多相关的模型解读
加入有三AI知识星球即可获取
每日更新
已经超过3万字的内容
覆盖各类主流网络架构
转载文章请后台联系
侵权必究