SiT:自我监督的视觉transformer

2024-07-30 12:09:21

点击上方“深度学习爱好者”，选择加"星标"或“置顶”

重磅干货，第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

由于最近成功地缩小了与监督学习的差距，自监督学习方法在计算机视觉领域获得了越来越多的关注。在自然语言处理(NLP)中，自监督学习和变形已经是常用的方法。最近的文献表明，变形金刚在计算机视觉中也变得越来越流行。到目前为止，视觉变形器在使用大规模监督数据[1]或某种共同监督(如教师网络)进行预训练时表现良好。这些有监督的预训练视觉变形器在[1]，[2]，[3]的最小变化下，在下游任务中取得了非常好的结果。在本研究中，作者研究了自我监督学习在图像/视觉变形预处理中的优点，然后使用它们进行下游分类任务。作者提出了自我监督视觉变形(SiT)，并讨论了几种自我监督训练机制，以获得借口模型。SiT的架构灵活性允许作者将其用作自动编码器，并无缝地处理多个自我监督任务。作者的研究表明，预训练的SiT可以在小型数据集(由几千张图像而不是几百万张图像组成)上进行微调，以完成下游分类任务。该方法在标准数据集上使用通用协议进行了评估。结果表明，变压器的强度和它们的适应性自监督学习。作者的表现大大超过了现有的自我监督学习方法。作者还观察到SiT对少数镜头学习很好，并且还表明它通过简单地在SiT学习的特征上训练线性分类器来学习有用的表示。

代码链接：https://github.com/Sara-Ahmed/SiT

论文创新点

在这项工作中，作者介绍了一个简单的自我监督学习框架，它利用了对比学习和前文本方法的优势。本研究的主要贡献和发现总结如下:

作者提出了一种新的视觉表征自监督学习方法——自监督视觉变压器(SiT)。
作者为SiT体系结构提供了一个解码器，并证明由于变压器的固有特性，它基本上可以通过使用一个线性层来实现。这种基于变压器的自动编码器避免了在基于cnn的编码器-解码器体系结构中通常存在的整个解码器块的需要。
利用自动编码转换器支持多任务学习的天然能力，作者开发了一个强大的自我监督框架，共同优化重构(图像修复)、旋转分类和压缩损失。
作者在不同的评估协议(包括线性评估、域转移和微调)之后，演示了所提议的框架在标准基准上的有效性。
在不同的数据集中，作者的性能优于并行的最先进的结果，改进幅度很大，达到了+13.53%。

框架结构

图像局部变换的例子

实验结果

从作者训练过的SiT模型中重建图像

图像随机从(a)训练数据、(b)测试数据和(c)从互联网上获取。每一行分别表示原始图像、损坏图像和重建图像。

结论

在这项工作中，作者提出了一个自我监督图像转换器，用无标记数据进行训练来执行借口任务，并使用预先训练的模型作为初始化来微调下游分类任务。作者建议使用变压器作为一个自动编码器，这是通过在输出使用一个单一的线性层(得益于变压器的架构)实现的。作者利用了变压器架构的吸引人的特性，即特别适合将不同的损耗函数与重构损耗结合起来。作者为每个损失添加一个令牌，并将旋转和对比损失以及重建损失结合起来。提议的SiT比最先进的自我监督方法表现得更好，利润空间更大。本工作将图像分类作为一项下游任务。作者相信SiT非常适合于许多其他的下游任务，如分割和检测，然而，这一猜想留给未来的研究。

论文链接：https://arxiv.org/pdf/2104.03602.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

更少的标签，更好的学习，谷歌半监督学习算法FixMatch

本文向大家推荐谷歌前段时间发布的论文 FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence ,该 ...
Facebook利用10亿张社交软件图片，训练AI新算法

Facebook研究人员发布新的人工智能模型,该模型可以利用互联网上任何一组随机无标签图片进行学习. 来源丨Zdnet 作者丨Daphne Leprince-Ringuet 编译丨科技行者 Faceb ...
SIGIR 2020 最佳论文放榜！清华大学成绩亮眼

从大会词云可以看出,本次会议的热点在推荐,网络,对话,强化学习,搜索等. 而就在昨日,大会公布了各项奖项,包括: 最佳论文奖 1 最佳论文荣誉提名奖 1 最佳短论文奖 1 最佳短论文荣誉提名奖 1 时 ...
Yann LeCun最新文章：自监督学习的统一框架，人类婴儿般学习

作者:Yann LeCun.Ishan Misra 编译:梦佳.贾伟 Facebook 今天宣布了一项重大突破: Facebook 的自监督AI 模型 SEER 能够在没有人类帮助的情况下,从10亿 ...
重磅！CVPR 2020 论文今起全面开放下载，含主会和workshop

因疫情影响 CVPR 2020 将于6月14日-19日线上会议,今天官方终于放出了所有的论文列表,并开放下载. 主会: http://openaccess.thecvf.com/CVPR2020.p ...
用聚类方法结合卷积网络，实现无监督端到端图像分类

图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题,也是图像检测.图像分割.物体跟踪.行为分析等其他高层视觉任务的基础.图像分类在很多领域有广泛应用,包括安防领域的人脸识 ...
一文速览ICML2020高引论文与华人作者

首次以线上形式的第 37 届国际机器学习会议将于 7 月 12 日到 7 月 18 日召开,早在一个月前,ICML 官方就以经放出了论文统计结果: 据官方统计,ICML 2020 共提交 4990 篇 ...
南阳：内部巡察全覆盖着力破解自我监督难题

2021-05-12 13:25 来源: 河南省纪委监委网站 2017年以来,南阳市纪委坚守政治机关定位,落实"打铁必需自身硬的"的要求,坚持刀刃向内,不断加强自我监督,积极探索开 ...
Twins：重新思考视觉Transformer中的空间注意力机制

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 198篇原创内容公众号 Twins: ...
极市沙龙回顾｜CVPR2021-戴志港：UP-DETR，针对目标检测的无监督预训练Transformer

作者丨戴志港编辑丨极市平台上周六,由极市平台与中国图象图形学学会联合举办的第三期极市CV开发者沙龙活动圆满结束. 本次线下沙龙的主题为CVPR2021论文研讨会.我们邀请了三位CVPR2021接收 ...
【最新刷榜】层次化视觉Transformer来啦！性能大幅优于DeiT、ViT和EfficientN...

[导读]本文主要介绍最新TransFormer成果,目前Swin Transformer在各大CV任务上,实现了SOTA的性能,在目标检测任务上刷到58.7 AP(目前第一)!实例分割刷到51.1 M ...
PVT：可用于密集任务backbone的金字塔视觉transformer！

设为星标,干货直达! 自从ViT之后,关于vision transformer的研究呈井喷式爆发,从思路上分主要沿着两大个方向,一是提升ViT在图像分类的效果:二就是将ViT应用在其它图像任务中,比如 ...
视觉 Transformer 的可视化｜CVPR2021

报道丨极市平台极市导读可视化对于Transformer的模型调试.验证等过程都非常重要,FAIR的研究者开源了一种Transformer可视化新方法,能针对不同类呈现不同且准确的效果. >& ...
用Pytorch轻松实现28个视觉Transformer，开源库 timm 了解一下！（附代码解读）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文将介绍一个优秀的PyTorch开源库--timm库,并对其中的vision transformer.py代码进行了详细解读.>> ...
论文总结 | CVPR2021视觉Transformer优秀论文|项目大盘点

前言 2021年,新年伊始,Visual Transformer的研究热点达到了前所未有的顶峰,经久不衰,在视觉顶会CVPR2021上,视觉Transformer论文高达40+篇. 本篇文章是目前热度 ...
ICCV 2021 | 视觉Transformer中的相对位置编码

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 204篇原创内容 Official A ...

SiT:自我监督的视觉transformer

相关推荐