ECCV 2020附代码论文合集(CNN,图像分割)
CNN
作者:Ningning Ma,Xiangyu Zhang,Jiawei Huang,Jian Sun
机构:香港科技大学,MEGVI研究
简介:本文提出了一个概念上简单、灵活和有效的权值生成网络框架。文中的方法是通用的,它将当前两个不同且非常有效的SENet和CondConv统一到一个权重空间的框架中。这个称为WeightNet的方法通过简单地在注意力激活层上添加一个分组的完全连接层来推广这两个方法。作者使用完全由(分组)完全连接层组成的WeightNet直接输出卷积权重。WeightNet在内核空间而不是特征空间上训练起来很容易,而且节省内存。由于灵活性,他们的方法在ImageNet和COCO检测任务上都优于现有的方法,实现了更好的精度浮点和精度参数权衡。该框架在柔性权重空间上具有进一步提高性能的潜力。
论文链接:https://www.aminer.cn/pub/5f1ab5ba91e011c09af1b58b/
代码地址:https://github.com/megvii-model/WeightNet
2 Feature Pyramid Transformer
作者:Dong Zhang,Hanwang Zhang,Jinhui Tang,Meng Wang,Xiansheng Hua,Qianru Sun
机构:南京科技大学,南洋理工大学
简介:跨空间和尺度的特征交互是现代视觉识别系统的基础,因为它们引入了有益的视觉环境。传统上,空间上下文被被动地隐藏在CNN不断增加的接受域中,或者被非局部卷积主动编码。然而,非局部空间相互作用并不是跨尺度的,因此它们无法捕捉到不同尺度上物体(或部件)的非局部上下文。为此,作者提出了一种跨空间和尺度的全主动特征交互,称为特征金字塔变换器(FPT)。它通过使用三个特殊设计的自层、自上而下和自下而上的交互方式,将任何一个特征金字塔转换成另一个大小相同但上下文更丰富的特征金字塔。FPT作为一种通用的可视化主干,具有合理的计算开销。在实例级(即对象检测和实例分割)和像素级分割任务中进行了大量的实验,使用各种主干网和头部网络,观察到在所有基线和最新方法上的一致性改进。
代码链接:https://github.com/ZHANGDONG-NJUST/FPT
作者:Zhuo Su,Linpu Fang,Wenxiong Kang,Dewen Hu,Matti Pietikäinen,Li Liu
机构:奥卢大学,华南理工大学
简介:用群卷积代替常规卷积可以显著提高现代深卷积网络的计算效率,在紧凑型网络结构设计中得到了广泛的应用。然而,现有的群卷积会永久性地切断某些连接,从而破坏原有的网络结构,导致显著的精度下降。在这篇论文中,作者提出动态群组卷积(DGC),它可以在每个群组内,针对个别样本,自适应地选取输入通道的哪一部分连接。具体来说,为每组配备一个小的特征选择器,以根据输入图像自动选择最重要的输入通道。多个组可以自适应地为每个输入图像捕获丰富且互补的视觉/语义特征。DGC保留了原有的网络结构,同时具有与传统群卷积相似的计算效率。在CIFAR-10、CIFAR-100和ImageNet等多个图像分类基准上进行了大量的实验,结果表明该算法优于现有的群卷积技术和动态执行方法。
论文链接:https://www.aminer.cn/pub/5f06f19391e0117f54657d71/
代码地址:https://github.com/zhuogege1943/dgc
4 Learning to Learn Parameterized Classification Networks for Scalable Input Images
作者:Duo Li,Anbang Yao,Qifeng Chen
机构:香港科技大学,Intel实验室
简介:卷积神经网络对输入分辨率的变化不具有可预测的识别行为。这就阻止了在特定模型的不同输入图像分辨率上进行部署的可行性。为了在运行时实现高效、灵活的图像分类,作者使用元学习器为不同的输入尺度生成主网络的卷积权值,并在每个尺度上维护私有化的批量规范化层。为了提高训练性能,他们进一步利用基于不同输入分辨率的飞越模型预测的知识蒸馏。与单独训练的模型相比,学习后的元网络能够动态地参数化主网络以作用于任意大小的输入图像,具有一致的更好的精度。在ImageNet上的大量实验表明,在自适应推理过程中,本文的方法实现了更高的精度和效率的折衷。通过切换可执行输入分辨率,该方法可以满足不同资源受限环境下的快速自适应要求。
论文链接:https://www.aminer.cn/pub/5f0d8a3191e011047aff990f/
代码地址:https://github.com/d-li14/SAN
5 Rethinking Bottleneck Structure for Efficient Mobile Network Design
作者:Zhou Daquan,Qibin Hou,Yunpeng Chen,Jiashi Feng,Shuicheng Yan
机构:新加坡国立大学,依图科技
简介:反向剩余块是近年来移动网络体系结构设计的主流。它通过引入反向残差学习和使用线性瓶颈两种设计规则来改变传统的剩余瓶颈。本文对这种设计变更的必要性进行了反思,发现这种变更可能带来信息丢失和梯度混淆的风险。因此,我们建议翻转结构并提出一种新的瓶颈设计,称为沙漏块,在更高的维度上执行身份映射和空间变换,从而有效地减少信息丢失和梯度混淆。大量的实验表明,与一般的观点不同,这种瓶颈结构比倒置的瓶颈结构对移动网络更为有利。在ImageNet分类中,通过简单地用我们的沙漏块代替倒立的残差块而不增加参数和计算量,分类精度比MobileNetV2提高1.7%以上。在pascalvoc2007测试集上,观察到在目标检测方面也有0.9%的mAP改进。通过将其加入神经结构搜索方法DARTS的搜索空间,进一步验证了沙漏块的有效性。经过25%的参数简化,分类精度比以前的DARTS模型提高了0.13%。
代码地址:https://github.com/zhoudaquan/rethinking_bottleneck_design
作者:Taojiannan Yang,Sijie Zhu,Chen Chen,Shen Yan,Mi Zhang,Andrew Willis
机构:北加利福利亚大学,密歇根州立大学
简介:本文提出了宽度-分辨率相互学习的方法(MutualNet),根据动态的资源约束来训练网络,实现运行时自适应的准确率-效率的平衡。该方法利用不同的宽度和输入分辨率,训练了多个子网络,每个网络都互相学习多尺度的特征表示。相对于目前SOTA的自适应网络 US-Net,本文方法在ImageNet上取得了更高的top-1准确率,要比最优的复合尺度的MobileNet和EfficientNet 高1.5%1.5\%1.5%。在COCO目标检测、实例分割和迁移学习任务上,该方法也进行了验证。MutualNet的训练策略可以提升单个网络的性能,在效率(GPU搜索时间:1500 vs. 0)和准确率方面都显著超过了AutoAugmentation。
代码地址:https://github.com/taoyang1122/MutualNet
7 PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale Convolutional Layer
作者:Duo Li,Anbang Yao,Qifeng Chen
机构:香港科技大学,intel实验室
简介:尽管卷积神经网络(CNNs)具有强大的建模能力,但它往往具有尺度敏感性。为了提高cnn对尺度方差的鲁棒性,在现有的解决方案中,基于不同层次或滤波器的多尺度特征融合受到了广泛的关注,而忽略了更细粒度的核空间。我们通过在更细的粒度中利用多尺度特性来弥补这一遗憾。所提出的卷积运算称为多尺度卷积(PSConv),它混合了膨胀率的频谱,并巧妙地将其分配到每个滤波器关于单个卷积层的各个卷积核中。具体地说,膨胀率沿着滤波器的输入和输出通道的轴周期性地变化,以一种简洁的方式将各种尺度上的特征聚集起来。PSConv可能是许多主流CNN主干网中香草卷积的一个替代品,允许在不引入额外参数和计算复杂性的情况下进行更好的表示学习。在ImageNet和MS-COCO基准测试上的综合实验验证了PSConv的优越性能。
论文链接:https://www.aminer.cn/pub/5f0d8a7491e011047aff9919/
代码地址:https://github.com/d-li14/PSConv
1 Learning To Classify Images Without Labels
作者:Van Gansbeke Wouter,Vandenhende Simon,Georgoulis Stamatios,Proesmans Marc,Van Gool Luc
机构:KU Leuven/ESAT-PSI,苏黎世联邦理工学院
简介:有没有可能在不使用地面真相注释的情况下自动分类图像?或者,即使是类本身,也不是先验知识吗?这些仍然是计算机视觉中的重要问题。有几种方法试图以端到端的方式解决这个问题。在本文中,作者偏离了最近的工作,提出了一种将特征学习和聚类分离的两步方法。首先,利用表征学习中的自监督任务来获得语义上有意义的特征。第二,在可学习的聚类方法中,使用所获得的特征作为先验。在这样做的时候,去除了集群学习依赖于低级特征的能力,这是当前端到端学习方法中存在的。实验结果表明,本文的分类准确率大大超过了现有的分类方法,特别是CIFAR10为+26.9%,CIFAR100-20为+21.5%,STL10为+11.7%。此外,在ImageNet上的结果表明,本文的方法是第一个能够很好地扩展到200个随机选择的类,获得69.3%的top-1和85.5%的top-5准确率,并且在完全监督的方法下,差异小于7.5%。
代码地址:https://github.com/wvangansbeke/Unsupervised-Classification