美团提出具有「位置编码」的Transformer，性能优于ViT和DeiT

2024-07-31 07:20:52

本文转载自机器之心。

Transformer 跨界计算机视觉的热潮之下，有一个问题需要解决：如何像 CNN 一样直接处理不同尺寸的输入？对此，美团提出了一种新型隐式条件位置编码方法，基于该方法的 CPVT 模型性能优于 ViT 和 DeiT。

随着 Facebook 的 DETR （ECCV 2020）[2] 和谷歌的 ViT （ICLR 2021）[3] 的提出，Transformer 在视觉领域的应用开始迅速升温，成为当下视觉研究的第一热点。但视觉 Transformer 受限于固定长度的位置编码，不能像 CNN 一样直接处理不同的输入尺寸，这在很大程度上限制了视觉 Transformer 的应用，因为很多视觉任务，如检测，需要在测试时动态改变输入大小。

一种解决方案是对 ViT 中位置编码进行插值，使其适应不同的图片大小，但这种方案需要重新 fine-tune 模型，否则结果会变差。

最近，美团提出了一种用于视觉 Transformer 的隐式条件位置编码 CPE [1]，放宽了显式位置编码给输入尺寸带来的限制，使得 Transformer 便于处理不同尺寸的输入。实验表明，应用了 CPE 的 Transformer 性能优于 ViT 和 DeiT。

论文地址：https://arxiv.org/pdf/2102.10882.pdf

项目地址：https://github.com/Meituan-AutoML/CPVT（即将开源）

背景

谷歌的 ViT 方法通常将一幅 224×224 的图片打散成 196 个 16×16 的图片块（patch），依次对其做线性编码，从而得到一个输入序列（input sequence），使 Transformer 可以像处理字符序列一样处理图片。同时，为了保留各个图片块之间的位置信息，加入了和输入序列编码维度等长的位置编码。DeiT [4] 提高了 ViT 的训练效率，不再需要把大数据集（如 JFT-300M）作为预训练的限制，Transformer 可以直接在 ImageNet 上训练。

对于视觉 Transformer，位置编码不可或缺

在 ViT 和 CPVT 的实验中，我们可以发现没有位置编码的 Transformer 性能会出现明显下降。除此之外，在 Table 1 中，可学习（learnable）的位置编码和正余弦（sin-cos）编码效果接近，2D 的相对编码（2D RPE）性能较差，但仍然优于去掉位置编码的情形。

美团、阿德莱德大学提出新型位置编码方法

位置编码的设计要求

显式的位置编码限制了输入尺寸，因此美团这项研究考虑使用隐式的根据输入而变化的变长编码方法。此外，它还需要满足以下要求：

保持很好的性能；
避免排列不变性（permutation equivariance）；
易于实现。

基于上述要求，该研究提出了条件编码生成器 PEG（Positional Encoding Generator），来生成隐式的位置编码。

生成隐式的条件位置编码

在 PEG 中，将上一层 Encoder 的 1D 输出变形成 2D，再使用变换模块学习其位置信息，最后重新变形到 1D 空间，与之前的 1D 输出相加之后作为下一个 Encoder 的输入，如 Figure 2 所示。这里的变换单元（Transoformation unit）可以是 Depthwise 卷积、Depthwise Separable 卷积或其他更为复杂的模块。

将 PEG 插入到模型中（如 Figure 1 中添加在第一个 Encoder 后），即可对各个 Encoder 添加位置编码信息。这种编码好处在于不需要显式指定，长度可以依输入变化而变化，因此被称为隐式的条件位置编码。

实验

ImageNet 数据集

该研究将添加了 PEG 的 Vision Transformer 模型命名为 CPVT（Conditional Position encodings Visual Transformer）。在 ImageNet 数据集上，相同量级的 CPVT 模型性能优于 ViT 和 DeiT。得益于隐式条件编码可以根据输入动态调整的特性，基于 224×224 输入训练好的模型可以直接处理 384×384 输入（Table 3 最后一列），无需 fine-tune 就能直接获得性能提升。相比之下，其他显式编码没有 fine-tune 则会出现性能损失。

与其他编码方式的对比

Table 5 给出了 CPVT-Ti 模型在不同编码策略下的表现。其中在从第 0 个到第 5 个 Encoder 各插入一个 PEG 的性能最优，Top-1 准确率达到 73.4%。CPVT 单独使用 PEG 或与可学习编码相结合也优于 DeiT-tiny 在各种编码策略下的表现。

PEG 在不同位置的作用

ViT 主干由 12 个 Encoder 组成，CPVT 对比了 PEG 位于 -1、0、3、6、10 等处的结果。实验表明，PEG 用于第一个 Encoder 之后表现最好 (idx 0)。该研究认为，放在第一个 encoder 之后不仅可以提供全局的接受域，也能够保证模型尽早地利用到位置信息。

结论

CPVT 提出的隐式位置编码是一个即插即用的通用方法。它放宽了对输入尺寸的限制，因而有望促进 Vision 在分割、检测、超分辨率等任务中的进一步应用，提升其性能。这项研究对后续 Vision Transformer 的发展将产生积极的影响。

参考文献

1.Do We Really Need Explicit Position Encodings for Vision Transformers? https://arxiv.org/pdf/2102.10882.pdf

2.End-to-end object detection with transformers https://arxiv.org/abs/2005.12872

3.An image is worth 16x16 words: Transformers for image recognition at scale https://openreview.net/pdf?id=YicbFdNTTy

4.Training data-efficient image transformers & distillation through attention https://arxiv.org/abs/2012.12877

搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（四）

作者丨科技猛兽审稿|邓富城编辑丨极市平台极市导读本文为详细解读Vision Transformer的第四篇,主要包括2种vision Transformer的内部机制,即:1. 如何更好地利用 ...
计算机视觉中自注意力构建块的PyTorch实现

作者:AI Summer 编译:ronghuaiyang(AI公园) 导读一个非常好用的git仓库,封装了非常全面的计算机视觉中的自注意力构建块,直接调用,无需重复造轮子了. git仓库地址:htt ...
Twins：重新思考视觉Transformer中的空间注意力机制

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 198篇原创内容公众号 Twins: ...
还在用全部token训练ViT？清华&UCLA提出token的动态稀疏化采样，降低inference时的计算量

详细信息如下: 论文链接:https://arxiv.org/abs/2106.02034 项目链接:https://github.com/raoyongming/DynamicViT 导言: 在Vi ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（八）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文为详细解读Vision Transformer的第八篇,本文主要介绍了两个用以加深Transformer模型的工作:DeepViT.CaiT ...
面经：什么是Transformer位置编码？

Datawhale干货作者:陈安东,中央民族大学,Datawhale成员过去的几年里,Transformer大放异彩,在各个领域疯狂上分.它究竟是做什么,面试常考的Transformer位置编 ...
Transformer也能生成图像

Transformer 已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由 CNN 主导的任务上暂露头角.近日,加州大学圣迭戈分校与 Google R ...
NAS+CNN+Transformer=ViT-Res！MIT团队重磅开源ViT-Res，精度高于DeiT-Ti8.6%

本文分享论文『Searching for Efficient Multi-Stage Vision Transformers』,由 MIT 团队重磅开源 ViT-Res,Tiny 模型精度比 DeiT ...
对视觉任务更友好的Transformer，北航团队开源Visformer！

▊ 写在前面目前,将基于视觉任务的Transformer结构正在快速发展.虽然一些研究人员已经证明了基于Transformer的模型具有良好的数据拟合能力,但仍有越来越多的证据表明这些模型存在过拟合 ...
各类Transformer都得稍逊一筹，LV-ViT：探索多个用于提升ViT性能的高效Trick

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读本文探索了用于提升ViT性能的各种训练技巧.通过一系列实验对比.改进与组合,本文所提方案取得了SOTA方案,超越了EfficientNet.T ...
HTTP 冷知识 | HTTP 请求中，空格应该被编码为 %20 还是 + ？

HTTP 请求中,空格应该被编码为什么?今天我们走进 RFC 文档和 W3C 文档,了解一下这个「史诗级」大坑. 1.%20 还是 + ? 开始讲解前先看个小测试,在浏览器里输入 blank test ...
准确率87.5%，微软、中科大提出十字形注意力的CSWin Transformer

作者丨小马编辑丨极市平台极市导读本文提出了十字形状的自注意力机制,能够在水平和垂直两个方向上同时计算注意力权重.在没有额外数据预训练的情况,CSWin-B能达到85.4%的top-1准确率,用I ...
【NLP】TransformerXL：因为XL，所以更牛

前面介绍过Transformer作为一种特征抽取器的强大之处.那么,它有没有弱点呢?能不能改进呢? 本文介绍Transformer的改进版,TransformerXL.看看它用了什么方法,改进了Tra ...
patch成为了ALL You Need？挑战ViT、MLP-Mixer的简单模型来了

来源丨机器之心编辑丨极市平台导读 ViT等视觉模型的强大性能,是来自于 Transformer,还是被忽略的 patch?有研究者提出了简单 ConvMixer 模型进行证明,直接将 patch ...
YOLOS：通过目标检测重新思考Transformer（附源代码）

计算机视觉研究院专栏作者:Edison_G 最近"计算机视觉研究院"有一段时间没有分享最新技术,但是最近我看了一些之前的检测框架,发现有两个很有意思,不错的框架,接下来我给大家简 ...
ICCV2021 MIT-IBM沃森开源CrossViT：Transformer走向多分支、多尺度

详细信息如下: 论文链接:https://arxiv.org/abs/2103.14899 项目链接:https://github.com/IBM/CrossViT 导言: 与卷积神经网络相比,最近出 ...
我们真的需要模型压缩吗

本文翻译自博客: <Do We Really Need Model Compression?> 作者:Mitchell A. Gordon 前言: 模型压缩是一种缩小训练后的神经网络的技 ...
PVT：可用于密集任务backbone的金字塔视觉transformer！

设为星标,干货直达! 自从ViT之后,关于vision transformer的研究呈井喷式爆发,从思路上分主要沿着两大个方向,一是提升ViT在图像分类的效果:二就是将ViT应用在其它图像任务中,比如 ...
用Pytorch轻松实现28个视觉Transformer，开源库 timm 了解一下！（附代码解读）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文将介绍一个优秀的PyTorch开源库--timm库,并对其中的vision transformer.py代码进行了详细解读.>> ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（六）

作者丨科技猛兽编辑丨极市平台极市导读本文为详细解读Vision Transformer的第六篇,主要介绍了2种将卷积引入Transformer模型的方法:CvT和CeiT.>>加入极 ...
2021机器学习研究风向是啥？MLP→CNN→Transformer→MLP！

设为 "星标",重磅干货,第一时间送达! 转载自专知就在2月份,Transformer还横扫CV和NLP各种task.但到了5月份,似乎一切变了.近来,谷歌.清华.Facebo ...
NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率...

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 219篇原创内容公众号本文转载自: ...

美团提出具有「位置编码」的Transformer，性能优于ViT和DeiT

相关推荐