深度网格分析的注意交叉行走
重磅干货,第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
网格的随机游动表示已被证明有利于深度学习。随机性确实是一个强大的概念。然而,它的代价是一些行走可能徘徊在网格的非特征区域,这可能对形状分析有害,特别是当只使用少数行走。作者提出了一种新的行走-注意机制,它利用了多次行走的事实。关键的想法是,行走可以为彼此提供有关网格有意义(注意)特征的信息。作者利用这个互信息来提取网格的单个描述符。这与普通的注意机制不同,后者使用注意来改善每个单独的描述符的表示。作者的方法在两个基本的三维形状分析任务中获得了SOTA结果:分类和检索。即使是少量的沿着网格行走也足够学习了。
作者评估了作者的方法在两个基本形状分析应用:网格分类和网格检索。作者证明了它优于其他方法的常用数据集,以及挑战性的新数据集[16]。因此,本文做出了以下贡献:
1。在网格深度学习中引入了一种新的注意机制。该机制还提供了三维物体中哪些区域对形状分析任务更重要,哪些更不重要的见解。
2. 作者提出了一个端到端学习框架来实现这种关注。它实现了最先进的结果,3D形状分类和检索,即使使用显著少行走。
框架结构
体系结构。每一次行走(wi)都由Meshwalker[31]独立处理,除了最后一个分类层,每一次行走都得到一个特征向量fwi。这n个特征向量是作者的新注意模块的输入,该模块产生一个单一的网格特征向量fa,强调网格最注意的属性。最后一个全连接层将fa转换为概率向量,用于形状分析应用(例如p是用于分类的预测向量)。
Meshwalker。作为输入,这个网络得到一个沿着网格wi的随机游走(一个顶点序列)。每个顶点首先通过两个完全连接的层嵌入到一个更高维的特征向量中。然后,接下来的三个RNN (GRU)层将特征向量序列处理成一个单独的行走特征向量fwi,该特征向量描述了行走的性质。
人行横道的注意。给定n个特征向量fwi,每个代表步行wi,作者计算步行注意向量fa。首先,将[52]的比例点积注意应用于输入向量。它首先使用3个平行的完全连接的层来进行每次行走:前两个学习每个行走向量与其他行走向量之间的注意力,第三个将输入的行走乘以前两个的函数。该子块的输出为walk的注意特征向量,记为Ha。第二个子块生成一个单独的向量,以一种衡量每个条目每步的重要性的方式表示网格。这分三个步骤完成,给定n个行走注意特征向量Ha:(1)每行应用softmax,以便将其转换为权重(概率)向量。(2)获取的权值与输入的walk特征之间的Hadamard积(J)根据学习到的重要度对每个特征项进行缩放。(3)在行走过程中对加权行走特征进行求和,得到输出特征向量fa。
实验结果
大多数,细心的走。在一个表面上的一组随机漫步被证明可以很好地代表网格,用于深度学习。哪一种行走应该对表现贡献更多?最专注的行走(青色)提供了一个对象的总体视图,并探索其独特的特征,如吉他的颈部和弦。相比之下,注意力最不集中的人(品红色的人)关注的是不能将物体与其他物体区分开来的区域,例如凳子的圆形座位。
限制。作者的算法将浴缸分类为床,对类似于床的特征给予更多关注,如最专注的行走(青色)所示。
结论
本文将注意力引入3D学习框架中。它展示了在表面上的多个随机行走可能共同显示出3D网格最注意的特征。关键的想法是,通过不同的行走,以不同的方式探索网格,既可以学习表面有意义的属性,也可以减少行走次数。作者的方法实现了最先进的结果形状分类和形状检索的常用数据集。
在未来,作者打算将作者的方法应用到其他应用中,特别是形状分割。在多尺度上应用作者的方法也是一个值得进一步研究的方向。
论文链接:https://arxiv.org/pdf/2104.11571.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。