ContNet:为什么不同时使用卷积和变压器
重磅干货,第一时间送达
![](http://n4.ikafan.com/assetsj/blank.gif)
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
![](http://n4.ikafan.com/assetsj/blank.gif)
![](http://n4.ikafan.com/assetsj/blank.gif)
摘要
尽管卷积网络(ConvNets)在计算机视觉(CV)领域取得了巨大的成功,但它在捕获全局信息方面存在缺陷,这对密集的预测任务(如目标检测和分割)至关重要。在这项工作中,作者创新性地提出了ConTNet(卷积变压器网络),将变压器与ConvNet架构相结合,以提供大的接受域。比起与最近提出的基于变压器模型(例如,维特,DeiT)敏感hyper-parameters和极其依赖一堆数据扩增在中型从头训练数据集(例如,ImageNet1k),可以优化ConTNet回旋网像正常(如ResNet)和保持一个优秀的鲁棒性。值得指出的是,给定相同的强数据增强,ConTNet的性能改进比ResNet更显著。作者展示了它在图像分类和下游任务上的优越性和有效性。例如,作者的ConTNet在ImageNet上达到81:8%的top-1精度,与DeiT-B相同,但计算复杂度低于40%。在COCO2017数据集上,ConTNet-M作为Faster-RCNN和Mask-RCNN的骨干,表现也优于ResNet50(分别领先2:6%和3:2%)。作者希望ConTNet能够成为CV任务的骨干,并为模型设计带来新的思路。
代码链接:https://github.com/yan-hao-tian/ConTNet
![](http://n4.ikafan.com/assetsj/blank.gif)
简而言之,这项工作的贡献有三方面。
1)据作者所知,作者提出的ConTNet是第一次探索建立一个神经网络与标准变压器编码器(STE)和空间卷积。
2)与最近流行的视觉转换器相比,ConTNet更容易优化。除了鲁棒性,ConTNet在图像识别方面表现出色。
3)实验结果表明,该方法具有良好的迁移学习效果。这些结果表明,ConTNet提供了一种新的基于转换变压器的模式来扩大模型的接收场。
![](http://n4.ikafan.com/assetsj/blank.gif)
框架结构
![](http://n4.ikafan.com/assetsj/blank.gif)
建议的ConTNet框架的说明
ConTNet包含多个contt块,由两个变压器编码器层和一个卷积层组成。
![](http://n4.ikafan.com/assetsj/blank.gif)
ConTNet中的一个补丁式标准变压器编码器(STE)
PE表示位置编码。H和W分别为输入和输出图像的高度和宽度。P为patch的大小。p2为STE输入输出序列的长度。
![](http://n4.ikafan.com/assetsj/blank.gif)
信息流在一个ConT块
对于被橙色阴影覆盖的区域,蓝色箭头表示每个空间位置的输出值是从整个覆盖区域通过分段STE计算出来的。红色箭头是一个conv层,核大小为3,步幅为2,只计算整个覆盖区域中心位置的输出值。
![](http://n4.ikafan.com/assetsj/blank.gif)
ConTNet系列详细设置
在括号内,作者列出了每个ConTBlock的超参数。D为MHSA的嵌入维数,Dffn为FFN的维数,H为MHSA的头数。托架外,显示了舞台上堆叠块的数量。在每一阶段,最后一个conv层进行降采样并增加维数。
![](http://n4.ikafan.com/assetsj/blank.gif)
实验结果
![](http://n4.ikafan.com/assetsj/blank.gif)
城市景观验证集上PSPNet分割结果的可视化比较
每一列是来自验证集的一组样本,上面两行是原始图像及其相应的ground truth。下面两行分别表示具有ResNet50骨干和contm骨干的PSPNet的结果。黄色的边界框标记了分割结果呈现显著差异的区域。
![](http://n4.ikafan.com/assetsj/blank.gif)
结论
城市景观验证集上PSPNet分割结果的可视化比较。每一列是来自验证集的一组样本,上面两行是原始图像及其相应的ground truth。下面两行分别表示具有ResNet50骨干和contm骨干的PSPNet的结果。黄色的边界框标记了分割结果呈现显著差异的区域。
ConTNet通过标准变压器编码器(STE)和空间卷积交替叠加,将变压器和卷积结合起来。作者引入一个权重共享的补丁方式STE来建模大型内核。一系列实验表明,ConTNet的性能优于ResNet,在较低的计算复杂度下达到了与流行视觉转换器相当的精度。作者验证了利用ConTNet骨干实现下游任务的有效性主要来源于聚合更多的上下文信息。此外,作者还演示了ConTNet与ConNets(例如ResNet)一样健壮。换句话说,ConTNet的性能不依赖于强大的数据增强和花哨的训练技巧,也不敏感的超参数。最后,在ConTNet中作者使用了普通的卷积和变压器,如果用最近改进的卷积和变压器来替代,将会有更好的性能。希望作者的工作能为模型设计带来一些新的思路。
论文链接:https://arxiv.org/pdf/2104.13497.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。