CVPR 2021 ｜针对强时序依赖，即插即用、混合注意力机制的 ACTION 模块

2024-06-24 08:36:18

本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recognition" 的介绍。主要针对强时序依赖行为识别这个场景，设计了一组卷积模块。

作者单位：都柏林圣三一大学，字节跳动
论文地址：https://arxiv.org/abs/2103.07372
项目地址：https://github.com/V-Sense/ACTION-Net

ACTION模块

ACTION 的核心思想是生成三个 attention map 即时空 attention map， channel attention map 和 motion attention map 来激发相应视频中的特征。因为 ACTION 模块是基于 2D CNN 的，所以 ACTION 的输入是一个 4D

(N: batch size, T: number of segments, C: number of channels, H: hegith, W: width)。下面我们将介绍三个模块分别对于输入 X 的处理。

1.1时空注意力 (Spatial-Temporal Excitation: STE)

该模块通过产生时空 attention map 来提取视频中的时空(spatio-temporal)特征。传统的时空特征提取主要使用3D卷积，但直接对输入引入3D卷积会大大的增加模型的计算量。所以我们先对 X 做一个channel average得到一个对于时空的 global channel 的特征

我们再将

reshape 成能够被 3D 卷积操作的维度即(N, 1, T, H, W)。至此，我们可以用一个 3D 卷积核对这个 F 进行卷积，卷积完之后再通过 Sigmoid 就可以得到一个时空的 attention map

这个时空 attention map reshape 成和 X 一样的维度再去点乘 X 就可以得到激发我们所需要的时空特征。STE 的结构和 PyTorch API 伪代码如下图：

STE 的结构图

PyTorch API 伪代码图

1.2信道注意力 (Channel Excitation: CE)

这个 block 是基于 SE-Net 的 SE block。但因为视频动作中含有时序信息，所以我们在信道的 squeeze 和 unsqueeze 之间插入了 1D 在时域上的卷积来增强信道在时域上的相互依赖程度。和 SE 一样，我们可以得到一个基于信道的 attention map

和 STE 一样，我们用得到的 attention map 点乘输入的 X 得到信道所激发特征。STE 的结构和 PyTorch API 伪代码如下图：

STE 的结构图

PyTorch API 伪代码图

1.3运动注意力 (Motion Excitation: ME)

ACTION 模块是由以上提到的三个注意力模块并联而成。这个模块和之前的工作TSM一样，即插即用。在和 state-of-the-art 的方法比较中，我们的backbone 采用了和之前工作相同的 ResNet-50 作为比较。同时，我们以 TSN和 TSM 为baseline 测试了ACTION 在不同 backbone (ResNet-50, MobileNet V2, BN-Inception) 上的性能。

实验结果

我们分别用了三个侧重于时序动作的视频数据集: Something-Something V2, Jester, EgoGesture 来测试我们提出的 ACTION 模块。

2.1对比实验

从下表中可以看出 ACTION 在 Jester 和 EgoGesture 上面的表现还是十分鲁棒的，都取得了 state-of-the-art 的效果。在 Something V2 的数据集上面相比STM 和 TEA 也取得了很相近的效果。

但值得注意的是，STM 和 TEA 都是分别针对于 ResNet 和 Res2Net 设计的，而 ACTION 是一个即插即用的模块，不会受限于 backbone 种类。

2.2Ablation Studies

Table 3 列出了不同 path 增加的计算量，参数以及效果提升。可以看 STE 和 CE 相对 TSM 于所增加的计算量非常小，同时可以提高 1.7% 准确率。ME 相对于另外两个模块计算量有所增加，但同时增加的准确率也最高。当我们把三个模块并联成 ACTION 时，准确率最高，但同时计算量也是增加的最多的。

Table 5 列出了ACTION 模块在不同 backbone 相较于 baseline 的一个效果提升。我们可以看出 ACTION 在 MobileNet V2 中所增加的计算量最低，这是由于MobileNet V2 本身倒锥形的结构(Inverted Residual)即在 residual block里，两边 channel 少，中间 channel 多。

而我们的 ACTION 插在每个 residual 的开始，所以 MobileNet V2 这样的结构本身会是 ACTION 带来的计算量比 ResNet-50 和 BNInception 来的要小。从准确率增加的效果上来看，对 ResNet-50 的提升最为明显(同时也增加的计算量也是最大)。

其它解读：CVPR 2021 | 用于动作识别，即插即用、混合注意力机制的 ACTION 模块

备注：人体

人体动作检测与识别交流群

动作识别、动作检测等技术，

若已为CV君其他账号好友请直接私信。

在看，让更多人看到

Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测)

上一篇笔记介绍了 Action Recognition 领域的研究进展.Action Recognition主要是用于给分割好的视频片段分类,但实际中大部分视频都是未分割的长视频.所以这就引出了今天要 ...
比CNN更强有力，港中文贾佳亚团队提出两类新型自注意力网络｜CVPR2020

加入极市专业CV交流群,与 10000+来自港科大.北大.清华.中科院.CMU.腾讯.百度等名校名企视觉开发者互动交流! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总,行业技术交流.关注 ...
视觉 Transformer 的可视化｜CVPR2021

报道丨极市平台极市导读可视化对于Transformer的模型调试.验证等过程都非常重要,FAIR的研究者开源了一种Transformer可视化新方法,能针对不同类呈现不同且准确的效果. >& ...
Attention增强的卷积网络

最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的.完整的知识结构体系. 以下是要写的文章,本文是这个系列的第二十三篇,内容较为深入,需要学习基础的同学点击 ...
CVPR2019|基于场景图的可解释显示视觉推理

计算机视觉三大顶会之一CVPR2019在美国洛杉矶举办,此前接收结果已经公布,一共有1300篇论文被接收,接收率为25.2%. 今天分享给大家的是其中一篇被接收的论文<Explainable a ...
2021CVPR 3D目标检测论文——HVPR

0 基本信息论文来源:2021 CVPR 1 Abstract Voxel-based方法可以有效地提取目标特征,但不能保存目标细粒度的3D结构:Point-based特征可以更准确地表示3D结构, ...
孩子的注意力到底能持续多长时间？

2013年有人做了一个人-鱼PK的实验,结果人类的Attention span竟然比金鱼还少了1秒.这里的Attention span指的是能够集中注意力在某个特定活动的时间长度,也就是我们常说的专注 ...
CVPR 2021 | 用于动作识别，即插即用、混合注意力机制的 ACTION 模块

分享一篇来自 CVPR 2021 的文章,ACTION-Net: Multipath Excitation for Action Recognition.作者单位:都柏林圣三一大学,字节跳动 AI L ...
树大招风？Google删除“自动驾驶”一词，摆明针对特斯拉；最新排名：2021最强护照！日本第一，澳洲第八！

树大招风？Google删除“自动驾驶”一词，摆明针对特斯拉；最新排名：2021最强护照！日本第一，澳洲第八！
技压群雄！2021 NTIRE @CVPR 2021的三冠一亚视频超分方案：BasicVSR++

论文链接:https://arxiv.org/pdf/2104.13371.pdf 代码链接:https://github.com/open-mmlab/mmediting 注:该文作者Kelvin ...
CVPR 2021 | 又好又快的视频异常检测，引入元学习的动态原型学习组件

Learning Normal Dynamics in Videos with Meta Prototype Network 作者:Hui lv, Chen Chen, Zhen Cui, Chuny ...
2021百强城市榜：广州深圳易位，20个省会城市进入50强

近日,华顿经济研究院正式发布了"2021年中国百强城市排行榜".华顿经济研究院是中国首家对宏观经济.区域经济和企业发展进行全方位.综合性研究的咨询机构,其前身为1988年成立的上海 ...
CVPR 2021 | 自适应激活函数ACON: 统一ReLU和Swish的新范式

论文地址:https://arxiv.org/pdf/2009.04759.pdf 论文代码:https://github.com/nmaac/acon 本文提出一种新的激活函数ACON (activ ...
个人观点（2021.4.12）：肺混合磨玻璃结节手术方式，需要细化分层！

前言:我们经常在自己公众号上发表意见,认为目前肺结节处理乱象丛生.尤其是纯磨玻璃结节,因为若最后病理是肺癌,不管原位腺癌或微浸润性腺癌,抑或浸润性腺癌,肺叶切除加淋巴结清扫都是符合目前肺癌外科切除的治 ...
热议 | 2021年强基考生必须关注的八大重要变化，全部与你息息相关！

截至发稿前,已有中国科学技术大学.西安交通大学.中国人民大学.哈尔滨工业大学.武汉大学.厦门大学等14所高校发布了2021年强基计划招生简章,从这些高校简章中,体现了强基计划第二年与第一年的一些变化, ...
CVPR 2021 | 基于跨任务场景结构知识迁移的单张深度图像超分辨率方法

原创 · 作者|孙宝利学校|大连理工大学硕士研究方向|计算机视觉项目主页: http://faculty.dlut.edu.cn/yexinchen/zh_CN/zdylm/1123985/li ...