又一篇视觉Transformer综述来了！ / 开普饭

重磅干货，第一时间送达

最近 Transformer在CV领域真的'杀疯了'，很多CV垂直方向出现了不少工作。其中非常有代表性就是：DETR、ViT等。

CVer上周第一时间推送了：华为&北大等联合最新提出的视觉Transformer综述，这周又来了一篇视觉Transformer新综述！内容和参考文献相对更加丰富一点。

注：文末附综述PDF下载和Transformer交流群

24页综述，共计170篇参考文献！本综述将视觉Transformer模型根据不同的任务进行分类和介绍（如分类、检测、行为识别、分割、GAN、low-level视觉、3D点云等）。

Transformers in Vision: A Survey

作者单位：人工智能大学(MBZUAI), IIAI等

论文下载链接：https://arxiv.org/abs/2101.01169

Transformer 模型在自然语言任务方面的惊人结果吸引了视觉界研究其在计算机视觉问题中的应用。

由下图可见BERT、自注意力和Transformer相关论文数量近年来增长的情况

这项调研旨在提供计算机视觉学科中的transformer 模型的全面概述，并且假设该领域的背景知识很少甚至没有。

我们从介绍transformer 模型成功背后的基本概念开始，即自监督（Self-supervision
）和自注意力（Self-Attention ）。

Transformer 体系结构利用自注意力机制在输入域中对远程依赖项进行编码，从而使其具有较高的表达力。

由于他们假定对问题的结构缺乏先验知识，因此将使用前置任务的自监督应用于大规模（未标记）数据集上的预训练transformer 模型。然后，在下游任务上对学习到的表示进行微调，由于编码特征的泛化和表现力，通常可导致出色的性能。

视觉中的Transformer和自注意力

本综述涵盖了transformer 在视觉领域的广泛应用，包括流行的识别任务（例如图像分类，目标检测，动作识别和分割），生成模型，多模式任务（例如视觉问题解答和视觉推理），视频处理（例如活动识别，视频预测），low-level视觉（例如图像超分辨率和彩色化）和3D分析（例如点云分类和分割）。

一、用于图像识别的Transformer

1. Non-local Neural Networks

2. Criss-cross Attention

推荐阅读：

3. Stand-alone Self-Attention

4. Local Relation Networks

5. Attention Augmented Convolutional Networks
6. Vectorized Self-Attention

7. Vision Transformer

推荐阅读：

8. Data-efficient Image Transformers

推荐阅读：

二、用于目标检测的Transformer

1. DETR

推荐阅读：

2. Deformable - DETR

推荐阅读：

三、用于分割的Transformer

1. Axial-attention for Panoptic Segmentation

又一篇视觉Transformer综述来了！