基于建筑重建三维网络的区域注意力RGB-D手势识别
重磅干货,第一时间送达
小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
人类手势识别在计算机视觉领域引起了广泛的关注。然而,手势识别的表现往往受到一些与手势无关的因素的影响,如表演者的背景、服装等。因此,关注手/手臂的区域对于手势识别是非常重要的。同时,自适应的体系结构搜索的网络结构也比块固定的网络结构(如Resnet)表现更好,因为它能更好地增加网络不同阶段的特征多样性。在本文中,作者提出了一种基于建筑重建的区域注意三维网络(RAAR3DNet)用于手势识别。由于网络在早期、中期和晚期特征的形状和表示能力不同,作者将固定的初始模块替换为通过神经结构搜索(Neural Architecture Search, NAS)通过网络自动重建的结构。它使网络能够更自适应地捕捉不同层次的特征表示。同时,作者还设计了一个可堆叠的区域注意模块动态静态注意(dynamic - static attention, DSA),推导出高斯引导的热图和动态运动图,分别在空间和时间域突出手部/手臂区域和运动信息。在最近的两个大规模RGB-D手势数据集上进行的大量实验验证了该方法的有效性,并表明它优于最先进的方法。
代码链接:https://github.com/zhoubenjia/RAAR3DNet
作者用NAS自动重建的细胞取代一般网络中的结构固定模块。处于网络早期、中期和晚期的细胞具有不同的结构,能够更自适应地学习底层和高层特征。
提出了一种可堆叠的注意结构(DSA)来生成空间和时间空间的注意图。DSA由SAtt和DAtt子模块组成。SAtt通过在线可学习的高斯骨架热图突出手部/手臂特征,而DAtt通过所提出的快速近似秩池算法捕获手势动作,在很大程度上降低了时间复杂度。
大量的实验证明作者的设计的整合最终可以提高手势识别的性能。实验表明,该方法能够在较好的性能和较低的计算量之间取得平衡,在两个大规模的手势数据集上都有较好的性能。
提出的管道方法
(a)整个RAAR3DNet的结构。(b)自动重建的cell1、cell2和cell3的内部结构。每个单元由两个输入节点、四个中间节点和一个输出节点组成。输出节点是将中间节点的特征进行一些简化操作(如拼接)得到的,标记为(b)中的虚线。作者以I3D网络为骨干,利用NAS自动重建网络中初始模块的结构。为了适应多尺度特征,重构后的网络呈现出不同的结构。Cell1和cell2,和网络的中间阶段,早期倾向于采用卷积核小接受领域更容易捕捉低级的纹理特性,而年底cell3s网络执行扩张卷积操作来获取更抽象和高层语义特征。
DSA模块的详细信息
它有动态注意(DAtt)和静态注意(SAtt)两个子模块,它们按顺序组合在一起。
作者的热图网框架用于指导热图生成
通过OpenPose (Cao等人,2017)推导出的高斯骨架图,作者学习了一个热图,通过一个由几个级联热图块组成的轻量级子网络来指示手/手臂区域。这些区块可以逐步学习一个越来越清晰的热图。
网络早期、中期和后期的特征图可视化
从上到下的特征图分别是I3D, I3D with DSA模块和作者的终极RAAR3D网络。
在本文中,作者提出了一种基于RGB-D数据的区域注意搜索三维网络用于手势识别。作者以I3D网络为骨干,利用NAS在网络的不同阶段搜索特征之间的最优连接。这样,网络结构可以更好地拟合低层特征和高层特征,提高识别结果。同时,作者还设计了DSA的可堆叠注意力模块,引导网络更加关注每一帧中的手/臂区域以及视频序列之间的运动轨迹。最后,在两个手势数据集上与最先进的方法进行了比较,验证了该方法的有效性。
论文链接:https://arxiv.org/pdf/2102.05348.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -