剑桥三星AI中心提出“X-ViT”：基于时空混合attention的视频Transformer，大幅度降低计算复杂度

2024-05-03 15:53:38

▊ 写在前面

本文介绍了利用Transformer进行的视频识别问题。最近Transformer在视频识别领域的尝试在识别精度方面展现出了非常不错的结果，但在许多情况下，由于时间维度的额外建模，会导致显著的计算开销提升。

在这项工作中，作者提出了一个视频Transformer模型，该模型的复杂度与视频序列中的帧数呈线性的关系，因此与基于图像的Transformer模型相比，不会产生额外的计算开销。为了实现这一点，本文的视频Transformer对 full space-time attention进行了两个方面的近似：

a)它将时间注意力限制在一个局部时间窗口 ，并利用Transformer的深度来获得视频序列的全时间覆盖（这一点类似CNN中用小卷积核和深层结构获得全局空间建模的思想很像）。

b)它使用有效的时空混合来联合建模空间和时间信息 ，与仅空间注意模型相比没有产生任何额外的计算成本。作者通过实验证明了，本文的模型在视频识别数据集上产生了非常高的精度。

▊ 1. 论文和代码地址

Space-time Mixing Attention for Video Transformer

论文地址：https://arxiv.org/abs/2106.05968

代码地址：未开源

▊ 2. Motivation

视频识别任务指的是识别视频序列中感兴趣的事件，如人类活动的问题。随着Transformer在处理序列数据方面取得的巨大成功，特别是在自然语言处理(NLP)任务中，视觉Transformer最近被证明在图像识别方面也优于CNN。在此基础上，作者提出了一个视频Transformer模型来提高视频识别任务的准确性。

视觉Transformer在时空领域的一个直接的、自然的扩展是在所有的S个空间位置和T个时间位置上共同进行Self-Attention。但是全时空注意具有的复杂性，这使得模型计算起来很沉重，甚至比3D CNN的复杂度还要高。

因此，在本文中，作者的目标是在保留对视频流中存在的时间信息建模的同时，最小化Transformer框架内的计算负担，以实现有效的视频识别。

这个问题的一个基本解决方案是只考虑空间注意，然后在时间维度上平均，它具有的复杂度（上图（b））。还有一些方法（上图（c））在视频识别精度方面已经显示出了很不错的结果，但在大多数情况下，由于时间信息的额外建模，与baseline（仅空间建模）方法相比，它们还是会导致显著的计算开销。

本文的主要贡献是提出了一个具有复杂度的视频Transformer模型，因此，与baseline模型一样高效，它在效率(即精度/FLOP)方面显著优于最近提出的工作。为了实现这一点，本文的模型对视频Transformer中使用的全时空注意力进行了两个方面的近似（如上图（d））：

a)它将时间注意力限制在一个局部时间窗口，并利用Transformer的深度来获得视频序列的全时间覆盖。

b)它使用有效的时空混合来联合建模空间和时间位置，并且不在仅空间注意的模型上产生任何额外的计算成本。

作者在本文中展示了如何集成两个非常轻量级的机制来实现全局时间attention，以最小的计算成本提供额外的精度提升。实验表明本文的模型在各种视频识别数据集（Something-Something-v2, Kinetics ，Epic Kitchens）上产生非常高的识别精度，同时比其他视频Transformer更加高效。

▊ 3. 方法

3.1. Video Transformer

给定一个视频clip。基于ViT的处理方法，每一帧被分成K×K个不重叠的patch，然后使用线性embedding层将patch映射到视觉token。

由于Self-Attention是排列不变的，为了保留每个patch在空间和时间内的位置信息，作者还用了两个可学习的位置embedding，一个用于空间：，一个用于时间：。然后将这些token添加到初始的视觉token中，用L个Transformer layers进行信息的建模。

第l层、空间位置s和时间位置t处的视觉token可以表示为：

除了从视频中提取的个视觉token外，在token序列中还包括一个特殊的分类token。第个Transformer layer使用一系列多头自注意(MSA)、层归一化(LN)和MLP()对上一层的视觉token进行处理，表示如下：

一个全时空自注意(SA) head的计算可以表示为：

其中是由使用embedding矩阵计算的query、key和value向量。最后，利用embedding矩阵对h个head的输出concat后进行投影。

完整模型的复杂性为：（qkv投影）+（h个head的MSA）+（多个head的投影）+（MLP）。

在本文中，作者的目标是降低h个head的MSA的复杂度（）。为了清晰起见，在后面的介绍中，我们先忽略这个维度，专注于时间和空间维度。因此，整个时空注意的复杂度为。

3.2. Baseline

本文的Baseline模型在每个Transformer层应用仅空间注意，对时空注意进行了一个简单的近似，计算方式如下：

其复杂度是。为了捕获时间上的信息，作者对时间维度进行了一个简单的平均操作，以获得输入线性分类器的单一特征：

3.3. Recent Work

最近的工作主要集中在减少全时空注意的计算成本。文献[1]提出了由因子分解后的attention，也就是将时间和空间进行分开attend：

其中是基于计算的query、key和value向量。上述模型将复杂性降低到。然而，对于固定的空间位置，不同帧之间的同一空间信息发生巨大偏差时（比如镜头切换等场景），时间注意是无效的。

3.4. Our model

本文的模型旨在保持复杂度的同时，更好地近似完全的时空自注意，即不增加仅空间自注意的复杂度。为了实现这一点，作者首先进行了一个近似操作来执行全时空注意，但将时间注意的范围限制在一个局部时间窗口，：

其中

，

是代表相应注意力权值的向量。对于单个Transformer层，是局部窗口，中视觉token的时空组合。

在k个Transformer Layer之后，将是局部时间窗口，中视觉token的时空组合，因此经过多个Transformer Layer之后，时间维度上的感受野就变大了。

上式中局部自注意的复杂度为。为了进一步减少复杂度，作者在第一个近似之上做了第二个近似。上式中位置和的attention表示如下：

它需要计算个位置的attention，因此在时间维度上依旧多了计算局部时间attention的复杂度。在计算，的时间区间上，作者采用了一个单一的attention，来减少计算复杂度。

具体实现上，作者采用了“shift trick”，这使得不需要引入任何额外的参数和计算量，就能融合时间和空间维度。每个时间区间，的通道从通道中分配。

（即，这一步就是指新的特征的通道维度有来自时间窗口内其他特征的信息，因此新的通道维度就同时融合了时间维度的信息，具体可见下面的图示 ）

设表示从中取出下标为的通道。新的key向量表示为：

上图展示了新的key 形成的过程，用相似的方法，还可以构建新的value最后，新的全时空注意的近似方法计算如下：

通过这两种近似方法，就可以获得的复杂度，因此它比以前提出的视频Transformer更有效。除了更小的计算量，本文的方法还能获得更高的精度。

3.5. Temporal Attention aggregation

模型使用class token 来生成预测。作者尝试了以下几种方式来聚合时间的信息：

1）在时间维度上简单进行时间维度的平均：

2）直接平均的一个缺点是，输出就是每帧特征的集合，因此，完全忽略了它们之间的时间顺序。为了解决这个问题，作者使用了一种轻量级的时间注意(TA)机制，它将attend T个class token。在实现上，使用时间Transformer来attend到序列，，，将其作为分类器的输入。

3.6. Summary token

作为TA的替代方案，作者还提出了一种简单的轻量级机制，用于网络中间层不同帧之间的信息交换。给定第t帧的token集合，作者计算了一组新的长度为的token ，φ，它对token信息进行了总结（记为“Summary” tokens）。

然后将这些“Summary” tokens接到query，key，value上，以便query能够直接attend到带有“Summary” tokens的key。其中φ为简单的空间上的平均，如下所示：

综上，作者将具有时空混合注意和轻量级全局时间注意（或Summary token）的视频Transformer称为X-ViT 。

▊ 4.实验

4.1 消融研究

4.1.1. 局部窗口大小的影响

上表显示了通过改变在时空混合注意中使用的局部窗口大小，而得到的模型的准确性。可以看出时效果是最好的。

4.1.2. SA位置的影响

作者探索了在Transformer内，时空混合注意操作应该应用于哪些层比较好。上表显示了实验的结果，可以看出，在所有层都应用效果最好。

4.1.3. 时间聚合的影响

作者比较了两种用于时间聚合的方法：简单的时间平均和所提出的时间注意(TA)机制。上表显示了不同层的影响，可以看到，加了一层就能将Top-1准确率从62.4%提高到64.4%。

4.1.4. 时空混合qkv向量的影响

上表显示了时空混合qkv向量相比于不进行混合的向量，在最中的性能上能有很大的改进。

4.1.5. 时空混合量的影响

上表展示了不同混合通道的数量的实验结果。可以看出，50%的通道混合量是一个比较好选择。

4.1.6. Summary token的影响

作者在两个数据集比较了Summary token的影响，可以看出Summary token在Kinetics-400数据集上表现的较好。

4.1.7. 输入帧数的影响

从上表可以看出，将帧数从8帧增加到16帧，SSv2上Top-1的准确率提高了1.8%。

上表为 Kinetics-400的结果，结论相似。

上表为Epic-100的结果，结论相似。

4.1.8. 标记数量的影响

即使token的数量显著减少(ViT-B/32)，本文的方法仍然能够达到不错的准确性。

4.1.9. 测试时Crop数量的影响

从上表可以看出，crops数量的增加，在2之后对最终结果影响不大。

4.2 与SOTA的比较

上表展示了本文方法在 Kinetics-600数据集上和其他SOTA方法的对比。

▊ 5. 总结

在本文中，作者提出了一种用于视频识别的全时空注意近似。本文的近似使得模型具有与仅空间注意相同的计算成本，比最近提出的视频Transformer更有效。具体来说，作者做了两个方面的近似：

a)将时间注意力限制在一个局部时间窗口 ，并利用Transformer的深度来获得视频序列的全时间覆盖；

b)使用有效的时空混合来联合建模空间和时间信息 ，而不在仅空间注意模型上产生任何额外的计算成本。

参考文献

[1]. Gedas Bertasius, Heng Wang, and Lorenzo Torresani. Is space-time attention all you need for video understanding? arXiv preprint arXiv:2102.05095, 2021.

▊ 作者简介

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END

邱锡鹏，这是Transformer最全综述

机器之心报道自 2017 年 6 月谷歌发布论文<Attention is All You Need>后,Transformer 架构为整个 NLP 领域带来了极大的惊喜.在诞生至今仅仅 ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（八）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文为详细解读Vision Transformer的第八篇,本文主要介绍了两个用以加深Transformer模型的工作:DeepViT.CaiT ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（六）

作者丨科技猛兽编辑丨极市平台极市导读本文为详细解读Vision Transformer的第六篇,主要介绍了2种将卷积引入Transformer模型的方法:CvT和CeiT.>>加入极 ...
DeiT：使用Attention蒸馏Transformer

题目:Training data-efficient image transformers & distillation through attention [GiantPandaCV导语]D ...
【深度学习】Transformer长大了，它的兄弟姐妹们呢？（含Transformers超细节知识点...

最近复旦放出了一篇各种Transformer的变体的综述(重心放在对Transformer结构(模块级别和架构级别)改良模型的介绍),打算在空闲时间把这篇文章梳理一下: 知乎:https://zhua ...
Multi-Scale Densenet续作？搞定Transformer降采样，清华联合华为开源动态ViT！

作者丨小马编辑丨极市平台极市导读本文介绍了一篇清华大学黄高研究团队和华为联合研究的一篇关于动态Transformer 的最新工作,该项工作发现采用定长的token序列表征数据集中所有的图像是一种 ...
ICCV 2021 | 最快视觉Transformer！Facebook提出LeViT：快速推理的视...

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 204篇原创内容公众号本文转载自: ...
DeepKey：科学家提出一种基于脑纹独特性的多模态生物识别系统可以防范身份欺骗

‍‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍‍‍‍‍‍ 生物识别认证则包括利用个体独特的.可测量的生理和行为特征识别个体的各种技术. 传统的生物识别系统如人脸识别.虹膜.视网膜.声音和指纹技术当前被广泛应用,然而 ...
领先神经网络，超越人类：朱松纯团队提出首个基于符号推理的几何数学题求解器

机器之心发布机器之心编辑部实现高级别的数学逻辑推理能力一直是通用人工智能追求的目标之一.近日,UCLA 联合浙江大学和中山大学的研究者提出了首个基于符号推理的几何数学题求解器 Inter-GPS. ...
IBM新型AI研究登顶刊，基于帕金森纵向数据预测疾病进程

作为一种致病原因和症状均存在广泛差异性的慢性疾病,想要预测帕金森疾病(PD)患者的病情发展十分困难.我们难以解释为什么有些患者的病情会持续加重,而有些人却不会. 帕金森疾病的症状通常表现为影响患者的运 ...
屠榜目标跟踪！大连理工和MSRA提出STARK：基于Transformer的目标跟踪器 | ICCV...

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 205篇原创内容 Official A ...
TUM提出TrackFormer：基于Transformers的多目标跟踪

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为 ...
英智库为英国人工智能中心提出建议

近日,英国皇家三军研究所(RUSI)网站发布评论文章,题为"剖析英国新近宣布的人工智能中心".文章简要阐述了人工智能的4个要素,并基于这些要素对该中心的潜在职能.组织和结构提出建议 ...
新基建时代，京东数科的AI中心+行业层 “公式”

撰文 | 何玺排版 | 叶媛京东数科近期动作不断. 3月中旬,京东数字科技集团宣布成立产业AI中心.4月9日,京东数科发出内部信宣布架构升级,在内部设立"行业层"组织. 01 ...
AI开发者大会之AI学习与进阶实践：2020年7月3日《如何转型搞AI？》、《基于AI行业价值的AI学习与进阶路径》、《自动机器学习与前沿AI开源项目》、《使用TensorFlow实现经典模型》

AI开发者大会之AI学习与进阶实践:2020年7月3日<如何转型搞AI?>+<无行业不智能:基于AI行业价值的AI学习与进阶路径>.<自动机器学习与前沿AI开源项目> ...
CVPR2021 用更好的目标检测器提取视觉特征！微软提出VinVL，基于更好的视觉特征，达到更强的多模态性能

0 写在前面本文详细研究了视觉语言(VL)任务中更好的视觉表示,并开发了一种目标检测模型,来提供以对象为中心的图像表示.与最广泛使用的bottom-up and top-down模型相比,新模型更大 ...