SiT:自我监督的视觉transformer
点击上方“深度学习爱好者”,选择加"星标"或“置顶”
重磅干货,第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
由于最近成功地缩小了与监督学习的差距,自监督学习方法在计算机视觉领域获得了越来越多的关注。在自然语言处理(NLP)中,自监督学习和变形已经是常用的方法。最近的文献表明,变形金刚在计算机视觉中也变得越来越流行。到目前为止,视觉变形器在使用大规模监督数据[1]或某种共同监督(如教师网络)进行预训练时表现良好。这些有监督的预训练视觉变形器在[1],[2],[3]的最小变化下,在下游任务中取得了非常好的结果。在本研究中,作者研究了自我监督学习在图像/视觉变形预处理中的优点,然后使用它们进行下游分类任务。作者提出了自我监督视觉变形(SiT),并讨论了几种自我监督训练机制,以获得借口模型。SiT的架构灵活性允许作者将其用作自动编码器,并无缝地处理多个自我监督任务。作者的研究表明,预训练的SiT可以在小型数据集(由几千张图像而不是几百万张图像组成)上进行微调,以完成下游分类任务。该方法在标准数据集上使用通用协议进行了评估。结果表明,变压器的强度和它们的适应性自监督学习。作者的表现大大超过了现有的自我监督学习方法。作者还观察到SiT对少数镜头学习很好,并且还表明它通过简单地在SiT学习的特征上训练线性分类器来学习有用的表示。
代码链接:https://github.com/Sara-Ahmed/SiT
在这项工作中,作者介绍了一个简单的自我监督学习框架,它利用了对比学习和前文本方法的优势。本研究的主要贡献和发现总结如下:
作者提出了一种新的视觉表征自监督学习方法——自监督视觉变压器(SiT)。
作者为SiT体系结构提供了一个解码器,并证明由于变压器的固有特性,它基本上可以通过使用一个线性层来实现。这种基于变压器的自动编码器避免了在基于cnn的编码器-解码器体系结构中通常存在的整个解码器块的需要。
利用自动编码转换器支持多任务学习的天然能力,作者开发了一个强大的自我监督框架,共同优化重构(图像修复)、旋转分类和压缩损失。
作者在不同的评估协议(包括线性评估、域转移和微调)之后,演示了所提议的框架在标准基准上的有效性。
在不同的数据集中,作者的性能优于并行的最先进的结果,改进幅度很大,达到了+13.53%。
框架结构
图像局部变换的例子
实验结果
从作者训练过的SiT模型中重建图像
图像随机从(a)训练数据、(b)测试数据和(c)从互联网上获取。每一行分别表示原始图像、损坏图像和重建图像。
结论
在这项工作中,作者提出了一个自我监督图像转换器,用无标记数据进行训练来执行借口任务,并使用预先训练的模型作为初始化来微调下游分类任务。作者建议使用变压器作为一个自动编码器,这是通过在输出使用一个单一的线性层(得益于变压器的架构)实现的。作者利用了变压器架构的吸引人的特性,即特别适合将不同的损耗函数与重构损耗结合起来。作者为每个损失添加一个令牌,并将旋转和对比损失以及重建损失结合起来。提议的SiT比最先进的自我监督方法表现得更好,利润空间更大。本工作将图像分类作为一项下游任务。作者相信SiT非常适合于许多其他的下游任务,如分割和检测,然而,这一猜想留给未来的研究。
论文链接:https://arxiv.org/pdf/2104.03602.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。