Trear:采用Transformer从RGB-D图像中进行自我动作识别

点击上方“深度学习爱好者”,选择加"星标"或“置顶

重磅干货,第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

作者提出了一个基于transformer的RGB-D自我中心动作识别框架,称为Trear。它由帧间注意编码器和相互注意融合块两个模块组成。作者采用自我注意机制来模拟不同形态数据的时间结构,而不是使用光流或循环单元。输入帧被随机裁剪以减轻数据冗余的影响。每个模态的特征通过所提出的融合块进行交互,并通过一个简单而有效的融合操作进行组合,从而产生一个联合的RGB-D表示。在两个以自我为中心的RDB-D数据集THUREAD和FPHA,以及一个小数据集WCVS上的经验实验表明,所提出的方法比最先进的结果有很大的优势

论文创新点

提出了一种新的基于变压器的以自我为中心的动作识别框架。它由帧间注意编码器和相互注意融合块两个模块组成。每个模态的数据首先通过注意编码器进行编码以构建模态内时间结构,然后通过融合块整合特征以产生跨模态表示。

对于帧间注意编码器,作者采用由自注意层和前馈层组成的标准变压器编码器。通过模仿语言翻译任务,动作视频中的每个采样图像(或深度地图)被视为一个词,并使用自我注意机制构建与其他词的依赖关系。由于采样图像之间存在上下文冗余,因此进行注意力计算效率较低。因此,作者提出从每幅图像中随机提取作物区域,通过编码器对不同区域进行交互,增强空间相关性。

此外,提出了一种相互注意融合块学习联合表示进行分类。在这个区块中,自我注意层延伸到相互注意层,不同形态的特征在这里相互作用。通过简单的操作将经过相互注意层的特征进行融合,得到分类的跨模态表示。

  • 采用transformer编码器对各模态动作周期内的时间背景信息进行建模;

  • 提出一种相互注意特征融合块,学习联合特征表示进行分类;

  • 该方法在三个标准的RGB-D自我中心数据集上取得了最先进的结果。

框架结构

提出了一种基于异质RGB模式和深度模式的自我中心行为识别方法。如下图所示,该方法由两个transformer编码器和一个相互注意融合块两部分组成。该网络以对齐的RGB帧和深度映射作为输入,首先将其转换为两个特征嵌入序列。然后将这两个序列特征分别输入变压器编码器,分别对时间结构进行建模。从编码器获得的特征通过交叉模态块相互作用,然后融合产生交叉模态表示。通过线性层对联合特征进行处理,得到逐帧分类,然后对动作片段的帧进行平均,作为最终识别结果。

模型以四帧RGB帧和相应的深度映射作为输入,由两个编码器分别处理。每个模态的特征通过相互注意块相互作用和融合,产生跨模态或联合表示。最终的分类是由联合表示产生的每一帧的平均值。

帧间transformer编码器的结构。为了简单起见,将特征嵌入的数量设置为2。首先将多头注意力应用于特征嵌入。然后,将每个头的输出连接起来,并通过包含残留连接、丢弃和层归一化(LN)的系列操作。FFN为前馈网络。注意,该过程中的计算是对嵌入件进行包装的矩阵操作。

实验结果

在THU-READ和WCVS数据集上与最先进的方法进行比较后得到的结果。结果是平均的4个splits和5个对象

在FPHA数据集上通过Trear得到的结果并与最先进的方法进行比较。Pose代表手部姿势形态。

结论

在本文中,作者提出了一个新的以自我为中心的RGB-D动作识别框架。它由帧间互感器编码器和相互注意的跨模态特征融合块两个模块组成。时间信息通过自我注意机制被编码在每一种形态中。来自不同形态的特征可以通过相互注意层进行信息交换,并融合成为联合的跨模态表示。在3个RGB-D自我中心数据集上的实验结果验证了该方法的有效性

论文链接:https://arxiv.org/pdf/2101.03904.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

(0)

相关推荐