【AI初识境】被Hinton，DeepMind和斯坦福嫌弃的池化，到底是什么？

2024-06-19 23:51:26

这是专栏《AI初识境》的第8篇文章。所谓初识，就是对相关技术有基本了解，掌握了基本的使用方法。

今天来说说深度学习中的池化问题，包含池化的种类，作用机制以及最新的思考。

作者&编辑 | 言有三

1 池化还要不要了

这一次咱们反着来，说说学术界对池化的最新观点。通常我们认为，池化可以增加网络对于平移的不变性，对于网络的泛化能力的提升是非常关键的。不过，到底能起到多大的正向作用，却是被很多人怀疑的。

首先是Hinton，还记得Hinton提出的Capsule Module吧。他认为池化的使用就是一个大错误，而它有效又反而是一个大灾难。池化固然可以提供一些平移和旋转不变性，但是也破坏了图像中的姿态和空间等信息，对检测分割等高级任务有影响，所以才提出胶囊网络(CapsuleNetwork)。至于这个发展的怎么样了，笔者没有关注，但是从大佬敢于革自己的“本命”这一点，就说明这个问题确实有点严重。

Hinton虽然指出了pooling的坏影响，但是无法否定其好处，那么池化是不是真的能够提升网络的泛化能力呢？

首先站出来好好回答这个问题的是斯坦福大学Eric Kauderer-Abrams的研究【1】，它们通过一个平移敏感图来进行研究。

这个平移敏感图长下面这样，它评估的就是一个网络的输出对于输入的平移的敏感度。

上面这个图是这么算的，首先用原图计算预测特征分数，然后用平移过的图计算预测特征分数，最后计算两者的归一化分数，越亮说明越相关。x和y分别就是偏移量，可以看到x，y都接近0的时候越亮，说明越相关，然后就随着距离的增强而降低。

这就是说平移越大之后，对性能的影响越大，毕竟一个网络不可能拥有完全的平移不变性。

在这个基础上，他们就做实验了，结果如下，c表示卷积，p表示pooling，aug表示数据增强，所以这里就是比较pooling和aug对性能的影响，结果表明池化不池化的，好像没有什么用，而数据增强做不做得好，才是关键。结果说明CNN本身没什么平移不变性，是靠数据学来的。

上面做了实验，但是没有更深层次地分析，为什么池化就没有用了呢，这可是违反我们的常识的。

DeepMind的研究【2】给出了一个比较有说服力的解答，实验的设置差不多，使用非池化和各种池化的网络结构。

总之结论就是：看上面的4个图。(a) 刚开始的时候池化确实有利于提高抗变形能力。(b) 不管池化不池化，模型最后学习完都能获得同样的抗变形能力。(c) 初始化的时候不同的池化方法是有差异的。(d) 学习完之后不管什么池化方法效果都差不多。

那总得有个理由吧？他们给出的理由是卷积核本身参数越平滑才越能提高对平移的稳定性，文中在卷积操作后面串接平滑操作，实验对比如下。

这也没毛病对吧，卷积核都平滑了，当然就没有那么敏感了。

暂且先总结一下吧：池化什么的不重要了，搞数据增强才是正道。

2 什么是池化

上面都这么说了，接下来说池化略有点尴尬，但是作为知识体系的重要一环，还是有必要讲述。

pooling，小名池化，思想来自于视觉机制，是对信息进行抽象的过程。

上图就是一个池化的示意图，用了一个10*10的卷积核，对20*20的图像分块不重叠的进行了池化，池化之后featuremap为2*2的大小。

pooling有什么用呢？或者说为什么需要pooling呢？原因有几个：

1、增大感受野

所谓感受野，即一个像素对应回原图的区域大小，假如没有pooling，一个3*3，步长为1的卷积，那么输出的一个像素的感受野就是3*3的区域，再加一个stride=1的3*3卷积，则感受野为5*5。

假如我们在每一个卷积中间加上3*3的pooling呢？很明显感受野迅速增大，这就是pooling的一大用处。感受野的增加对于模型的能力的提升是必要的，正所谓“一叶障目则不见泰山也”。

2、平移不变性

我们希望目标的些许位置的移动，能得到相同的结果。因为pooling不断地抽象了区域的特征而不关心位置，所以pooling一定程度上增加了平移不变性。

3、降低优化难度和参数

我们可以用步长大于1的卷积来替代池化，但是池化每个特征通道单独做降采样，与基于卷积的降采样相比，不需要参数，更容易优化。全局池化更是可以大大降低模型的参数量和优化工作量。

3 池化有哪些

1、平均池化和最大池化

这是我们最熟悉的，通常认为如果选取区域均值(mean pooling)，往往能保留整体数据的特征，较好的突出背景信息；如果选取区域最大值(max pooling)，则能更好保留纹理特征。

2、stochastic pooling/mixed pooling

stochastic pooling对feature map中的元素按照其概率值大小随机选择，元素被选中的概率与其数值大小正相关，这就是一种正则化的操作了。mixed pooling就是在max/average pooling中进行随机选择。

3、Data Driven/Detail-Preserving Pooling

上面的这些方法都是手动设计，而现在深度学习各个领域其实都是往自动化的方向发展。

我们前面也说过，从激活函数到归一化都开始研究数据驱动的方案，池化也是如此，每一张图片都可以学习到最适合自己的池化方式。

此外还有一些变种如weighted max pooling，Lp pooling，generalization max pooling就不再提了，还有global pooling。

4 总结

带步长的卷积虽然不需要池化，却没有了灵活的激活机制。平均池化稳扎稳打，却丢失了细节。最大池化克服了平均池化的缺点，却打断了梯度回传。

最终发现，池化也还是要学的好，所谓随机应变，盖莫如此。另外，如何选择好用于池化的区域，也是一门学问。

参考文献

[1] Kaudererabrams E. Quantifying Translation-Invariance in Convolutional Neural Networks.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.

[2] Ruderman A, Rabinowitz N C, Morcos A S, et al. Pooling is neither necessary nor sufficient for appropriate deformation stability in CNNs[J]. arXiv: Computer Vision and Pattern Recognition, 2018.

2019年有三AI培养计划已经开始，一个季度一期。

2019年有三AI“春季”划，给我一个荣耀，还你一生荣耀

总结

深度学习理论部分快要结束了，看似平常朗朗上口的东西，其实背后蕴含着非常多可以思考的东西，唯有多想多做才能不浮于表面。

下一期预告：深度学习中的正则化

转载文章请后台联系

侵权必究

一夜回到解放前--掀起“NVDLA”的盖头来(Nvidia刚发布的NVDLA是何方神圣？）

为了更好地便于大家交流学习,EETOP组建了 GPU&FPGA深度学习群欢迎行业内朋友加入,加群方法:长按二维码加群主好友,发送如下信息:加群+深度学习+所在公司(或院校) 长按二维码,加群 ...
顶尖计算机科学家辩论人工智能的下一步发展

21世纪10年代人工智能的成就是巨大的,这要归功于人工智能的一个分支--深度学习的进步.由于收集.存储和处理大量数据的能力不断增强,这项技术变得可行.今天,深度学习不仅仅是一个科学研究的主题,也是许多 ...
LeCun联手华人博士后提出自监督学习新作！却遭Reddit网友质疑：第一张图就错了...

转载自:新智元来源:reddit | 编辑:LRS [导读]两个月前自监督学习领域出了一篇重磅论文,LeCun和他的学生共同完成新模型Barlow Twins,reddit网友指出,第一张图就错 ...
你的对手可能不是人：DeepMind星际2 AI AlplaStar将加入天梯匹配

今年一月谷歌DeepMind研究小组研发的星际争霸2 AI AlphaStar在表演赛中击败人类顶尖星际2选手,让许多人都惊叹不已.现在,欧洲的星际玩家有机会亲自跟这个AI过两招了,暴雪官方宣布Alp ...
UC Berkeley 马毅：深度学习的第一性原理

作者:周寅张皓导读:寻找深度学习的普适理论一直是学界关注的焦点.在深度学习的工作中,我们常常使用许多经验性的方法,例如选择不同的非线性层,样本的归一化,残差链接,卷积操作等等.这样的方法为网络带来了 ...
【AI初识境】给深度学习新手做项目的10个建议

这是专栏<AI初识境>的第12篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 在成为合格的深度学习算法工程师,尤其是工业界能够实战的调参选手之前,总会踏足很多的坑. 今 ...
【AI初识境】深度学习中常用的损失函数有哪些？

这是专栏<AI初识境>的第11篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 今天来说说深度学习中常见的损失函数(loss),覆盖分类,回归任务以及生成对抗网络,有了目 ...
【AI初识境】深度学习模型评估，从图像分类到生成模型

这是<AI初识境>第10篇,这次我们说说深度学习模型常用的评价指标.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 凡事用数据说话,一个深度学习模型在各类任务中的表现都需要定量 ...
【AI初识境】如何增加深度学习模型的泛化能力

这是专栏<AI初识境>的第9篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 今天来说说深度学习中的generalization问题,也就是泛化和正则化有关的内容. 作者 ...
【AI初识境】为了围剿SGD大家这些年想过的那十几招

这是<AI初识境>第7篇,这次我们说说常用的优化算法.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 深度学习框架目前基本上都是使用一阶的梯度下降算法及其变种进行优化,在此基础 ...
【AI初识境】深度学习模型中的Normalization，你懂了多少？

这是<AI初识境>第6篇,这次我们说说Normalization.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 数据经过归一化和标准化后可以加快梯度下降的求解速度,这就是Ba ...
【AI初识境】什么是深度学习成功的开始？参数初始化

这是<AI初识境>第5篇,这次我们说说初始化.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 神经网络要优化一个非常复杂的非线性模型,而且基本没有全局最优解,初始化在其中扮演着 ...
【AI初识境】激活函数：从人工设计到自动搜索

这是专栏<AI初识境>的第4篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 在神经网络中,有一个看似不起眼但是非常重要的概念,那就是激活函数.激活函数模型固然理解起来简 ...
【AI初识境】近20年深度学习在图像领域的重要进展节点

这是专栏<AI初识境>的第3篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 这是本系列的最后一篇非技术文章,我们总结一下深度学习技术在图像领域的重要历史性节点,本来打算 ...

【AI初识境】被Hinton，DeepMind和斯坦福嫌弃的池化，到底是什么？

相关推荐