【模型解读】“不正经”的卷积神经网络

2024-06-23 05:21:05

这是深度学习模型解读第7篇，本篇我们将介绍不规则形状的卷积。

言有三

毕业于中国科学院，计算机视觉方向从业者，有三工作室等创始人

作者 | 言有三（微信号：Longlongtogo）

编辑 | 言有三

卷积中的不变性

图像任务，都需要识别出图像中的主体，用于分类，检测，分割，比如下面的验证码识别。

但是同样的目标，在不同的图片中，会存在位置的偏移，角度的旋转，尺度的大小。卷积神经网络要能够应对这些情况，比如分类任务，对于同样的目标在不同图像中的偏移，旋转，尺度，要输出同样的结果。

这便是我们常说的旋转，平移，尺度不变性了。

cnn有这个能力吗？有。

前面我们说过pooling，它有一定的平移不变性，而且网络越深，越强大。但是，它的这个能力仍然是有限的，受卷积核大小和感受野大小的约束。

尺度不变性和旋转不变性呢？很遗憾，几乎没有，不然Hinton也不会搞capsule。

我们通常做的随机裁剪，旋转，缩放等操作，就是利用了cnn强大的学习能力，制造出了各种版本的图片供其学习。为了模型的鲁棒性，需要生成大量的数据。

一句话，网络模型对于物体几何形变的适应能力几乎完全来自于数据本身所具有的多样性。

为什么呢？

前面我们说了问题，那为什么会这样呢？因为cnn就没有显式地学习这些信息，而卷积操作本身具有非常固定的几何结构，标准的卷积操作是一个非常规矩的采样，通常是正方形。

那，能不能不规矩呢？首先我们看什么是不规矩，下图来自于【1】。

a图大家很熟悉，标准的3*3卷积核，而b，c，d虽然也是9个采样点，但是每个采样点相对于中心点的偏移与a很不一样。b是一个通用的展示，即完全没有规律。c，d是b的特例。

我们将这样的卷积，称为（deformable convolutional networks）可变形卷积，笔者更喜欢称之为“不正经卷积”。

这种“不正经卷积”的特点，1是采样视野大于对应版本的标准卷积（带孔卷积不算），2是它的感受野是不规则的形状。

有什么好处呢？

我们看上面的一张图，假如我们有一个分割任务，要分割出图中的尺度不同的动物。

我们先看左边的图，标准的卷积，感受野必然是一个方方正正的区域。顶图有一个中心像素，它的感受野是3*3，到了中间的图，周围四个角点又可以进一步扩展感受野，直到底部的图。

所以对于顶部目标的中心像素，经历了两次3*3卷积，它的感受野是固定的5*5，与动物本身的形状并不匹配。而同样的两个3*3的卷积，右边的“不正经卷积”，则由于灵活的感受野，所覆盖的区域更大，也更匹配了目标本身的形状。

这是一个非常通用的问题，标准卷积对目标的形状感受野不够灵活，卷积的效率自然也就下降。而可变形卷积则利用了不规则可变化的形状，改善了这两个问题。

怎么实现？

可变形卷积这么灵活，实现起来麻烦吗？答案是不麻烦，只需要增加一个偏移量即可，具体来说看下图。

与标准卷积核相比，一个可变形卷积核，用于卷积的像素相对于中心像素各自的x，y方向上的偏移没有了规律，如果我们学习到了这个规律（实际就是用卷积核来记录它），就完成这件事情了。

实际实现就是多了一个offset层，通过offset输出通道数，我们可以控制要学习的变形的种类。当然，这个通道数一定是2N的，因为要同时记录x和y方向。

总结

做一个简单的总结，首先我们说说好处。(1)增加了网络的空间变形适应性，这也是网络要解决的本质问题。(2)不增加额外的标注信息和训练代价，仍然是原来的数据就可以训练，而且同时训练卷积系数和偏移量。(3)对于复杂的任务提升效果明显，具体的实验结果指标，可以至论文中看，也可以自己训着看。

坏处主要是增加了参数量与计算量，不过这个计算量其实不大，可以通过分组进行控制。

值得注意的是，可变形卷积并非是第一个研究这个问题的，在STN【2】中，已经通过Spatial Transformer Layer来实现了对旋转平移缩放等信息的学习。Active Convolution，Atrous convolution等都试图解决类似问题，在此就不一一讲解了，大家可以自己拓展学习。

参考文献

【1】Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[J]. CoRR, abs/1703.06211, 2017, 1(2): 3.

【2】Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]//Advances in neural information processing systems. 2015: 2017-2025.

打一个小广告，本公众号的计算机视觉公开课《AI 图像识别项目从入门到上线》上线了，将讲述从零基础到完成一个实际的项目到微信小程序上线的整个流程，欢迎交流捧场。

论文专区▏最新国际地球参考框架ITRF2014的分析与评述

[编者按]文章介绍ITRF2014的定义.测站分布.输入数据.分析策略以及与ITRF2008的转换参数,并分析ITRF2014相对于ITRF2008的改进.ITRF2014是国际地球参考框架ITRF的 ...
我变了？“我”没变！

中科院物理所昨天 21:53 原创:中科院物理所如何用对称性描述系统的临界变化?‍一个数学家团队证明了,在相变临界点,旋转不变性是许多物理系统的普遍属性.‍ 近 50 年来,数学家们一直在寻找严格 ...
【学术论文】一种改进的RefineDet多尺度人脸检测方法

摘要: 针对车站.商场等大型场所中客流量大.背景复杂等原因导致多尺度人脸检测精度低的问题,建立了一种基于RefineDet多层特征图融合的多尺度人脸检测方法.首先利用第一级网络进行特征提取并在不同尺度 ...
数学家证明相变的对称性：从旋转对称性到标度不变性

导语几十年来,数学家一直希望证明在在物理系统从一种状态转变为另一种状态时,对称性是普遍存在的.被称为共形不变性(conformal invariance)的对称性,实际上包含三个独立的对称性:旋转对 ...
CVPR2021 DRConv：即插即用！旷视孙剑、张祥雨团队提出动态区域感知的卷积，涨点显著！

▊ 写在前面在本文中,作者提出了一种名为动态区域感知卷积(DRConv) 的新卷积,它可以自动将多个滤波器分配给具有相似特征表示的空间区域.标准卷积层通常是增加滤波器的数量以提取更多的视觉信息,但这 ...
目标跟踪入门篇-相关滤波

作者:晟沚前言目标跟踪是计算机视觉领域的一个重要问题,目前广泛应用在体育赛事转播.安防监控和无人机.无人车.机器人等领域. 简单来说,目标跟踪就是在连续的视频序列中,建立所要跟踪物体的位置关 ...
【模型解读】从2D卷积到3D卷积，都有什么不一样

接着模型解读系列,在中国科幻作家刘慈欣的科幻小说<三体Ⅲ·死神永生>中,首次提出了降维打击这个概念,这是本质上区别于同一维度的攻击,破坏性也更大. 而现在我们要说的是从二维卷积升级到三维卷 ...
夏雪等：基于轻量级无锚点深度卷积神经网络的树上苹果检测模型（2020年第1期）

本文引用格式夏雪, 孙琦鑫, 侍啸, 柴秀娟. 基于轻量级无锚点深度卷积神经网络的树上苹果检测模型[J]. 智慧农业(中英文), 2020, 2(1): 99-110. Xia Xue, Sun Q ...
多功能的图像超分辨模型：用于盲图像超分辨的非对称卷积神经网络

哈工大.台湾国立清华大学与香港中文大学的研究人员联合提出用于盲图像超分辨的非对称卷积网络,该文收录于IEEE Transactions on Systems, Man, and Cybernetics ...
深度学习之卷积神经网络经典模型介绍

深度学习之卷积神经网络经典模型介绍
R语言实现CNN（卷积神经网络）模型进行回归数据分析

原文链接:http://tecdat.cn/?p=18149 当我们将CNN(卷积神经网络)模型用于训练多维类型的数据(例如图像)时,它们非常有用.我们还可以实现CNN模型进行回归数据分析.我们之前使 ...
【阿里云课程】卷积神经网络：结构单元、卷积层反向传播求解与典型模型

大家好,继续更新有三AI与阿里天池联合推出的深度学习系列课程,本次更新内容为第5课中的两节,介绍如下: 第1节:卷积神经网络(上) 第1节课内容为:卷积神经网络的上篇,简单介绍卷积神经网络的生物学机制 ...
叶进教授团队：面向植物病害识别的卷积神经网络精简结构Distilled-MobileNet模型（2021年第1期）

引用格式:邱文杰, 叶进, 胡亮青, 杨娟, 李其利, 莫贱友, 易万茂. 面向植物病害识别的卷积神经网络精简结构Distilled-MobileNet模型[J]. 智慧农业(中英文), 2021, ...
计算机视觉领域的核心算法模型：卷积神经网络

计算机视觉领域的核心算法模型:卷积神经网络原创幻风的成长之路2019-08-17 11:58:03 卷积神经网络的概述卷积神经网络CNN是一类包含卷积计算且具有深度结构的神经网络,是深度学习的代表 ...
CNN（卷积神经网络）模型以及R语言实现

原文链接:http://tecdat.cn/?p=18149 无人驾驶汽车最早可以追溯到1989年.神经网络已经存在很长时间了,那么近年来引发人工智能和深度学习热潮的原因是什么呢?答案部分在于摩尔定律 ...

【模型解读】“不正经”的卷积神经网络

相关推荐