Visformer:视觉友好型变压器

重磅干货,第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

过去的一年见证了Transformer模块在视觉问题上的快速发展。虽然一些研究人员已经证明了基于transformer的模型具有良好的数据拟合能力,但仍有越来越多的证据表明这些模型存在过拟合问题,特别是在训练数据有限的情况下。本文通过逐步操作,将基于transformer的模型逐步转换为基于convolutional的模型进行了实证研究。作者在过渡过程中获得的结果为改善视觉识别提供了有用的信息。基于这些观察,作者提出了一个名为Visformer的新架构,它是视觉友好转换器的缩写。在计算复杂度相同的情况下,Visformer在ImageNet分类精度方面优于Transformer-based和convolutional -based两种模型,当模型复杂度较低或训练集越小时,这种优势就越显著。

代码链接:https://github.com/danczs/Visformer.

论文创新点

本文的贡献有三方面。

首先,作者首次引入了下界和上界来研究基于transformer的视觉模型的性能。

其次,作者通过一个渐进的过渡过程来缩小基于transformer和基于convolutionbased模型之间的差距,从而确定基于transformer和基于convolutionbased模型中的设计属性。

第三,作者提出了Visformer作为最终模型,同时实现了满意的下限和上限,并具有良好的可扩展性。

框架结构

从DeiT开始到ResNet-50结束的转换过程。为了节省空间,作者只展示了三个重要的步骤,即(i)用步进式patch embedding代替patch扁平化模块,(ii)引入分段式设计,(iii)用卷积代替self-attention模块。右上区域显示了一个相对较小的修改,插入了3个3个卷积。右下区比较了3 - 3卷积的接受区和自我注意。这个图形最好是彩色的。

实验结果

作者的方法与其他基于变形器的视觉模型的比较。*表示作者使用elite设置重新运行模型。KD代表知识提炼

结论

本文提出了一种基于变形器的视觉识别模型Visformer。作者建议使用两个协议,基础和精英设置,以评估每个模型的性能。为了研究基于变形器的模型和基于卷积的模型行为不同的原因,作者分解了这些模型之间的差距,并设计了一个八个步骤的过渡过程,连接DeiT-S和ResNet-50之间的差距。通过吸收优缺点,作者得到了优于DeiT-S和ResNet-50的Visformer-S模型。当它被转移到一个紧凑的模型和在小数据集上进行评估时,Visformer也显示出了很有前途的能力。

但是,作者应该注意到基于transformer的模型仍然缺乏被转移的灵活性。例如,目标检测和语义/实例分割通常需要大量的输入图像,但是Transformer的复杂性随着输入大小的增加而增加了ON 4。此外,自我监督学习在基于变形金刚的模型上的表现还不清楚[9,14]。作者希望Visformer能够激励社区,并为解决这些挑战提供新的机会。

论文链接:https://arxiv.org/pdf/2104.12533.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

(0)

相关推荐