“深”为什么好?Facebook最新研究剑指神经网络的实际表达能力
神经网络有强大的函数拟合(表达)能力,且层数越深、神经元越多,表达能力越强。各类底层应用如CV\NLP等任务显示,深层网络效果通常优于浅层网络,即“深就是好”。理论上,深层网络有更强的表达能力,这常常被认为是“深就是好”的原因之一。但就实际体现出来的表达能力而言,深层网络较浅层网络究竟强多少呢?
Texas A&M University和Facebook AI的研究人员(Hanin & Rolnick,2019)在ICML2019上联合发文,分析了实际应用到的以Relu为激活函数的神经网络模型,得出相应模型的实际表达能力随深度线性增长的结论。
Relu神经网络的表达能力
Relu激活函数是一个分段线性函数。一个Relu激活函数将输入空间分为两块,每一块内部均是线性函数,如下图左侧。一个Relu神经网络是一个以Relu为激活函数的神经网络,它将输入空间分成多块,每一块内部仍是线性函数,如下图右侧。以下将各个分块称为线性区域(linear region)。
直觉上讲,一个网络,如果能将输入空间划分得更多、更密,它就能拟合更复杂的函数或概率分布。因此,某个神经网络的固定输入空间的线性区域的数目,也就从一个侧面反映了该网络所表达函数的复杂程度;输入空间所能得到的最大划分数目,也就反映了某类架构的神经网络的表达能力极限。
一方面,对于某些特意构造的多项式函数,浅层网络需要指数增长的神经元个数,其拟合效果才能匹配上多项式增长的深层网络(Delalleau and Bengio, 2011)。另一方面,线性个数(O(n))神经元的神经网络,确实能利用合适的架构(深度和宽度)将输入空间分割为指数个数(2^n)个线性区域,如下图左侧(Telgarsky ,2015)。
然而,这些构造是如此精巧,以致一个轻微的扰动,就会破坏对应的指数关系(如上图右侧)。
我们不禁要问,对于现实中使用的神经网络,而不是理论上的上界和精巧构造下,输入空间被划分出的线性空间数目,和神经网络的架构的关系究竟如何。
真实神经网络的线性区域数目
输入空间I被划分出的线性区域数目#{regions in I },是一个关于神经网络(架构、参数值等)的函数,有指数上界O(2^n),且上界可达到;有平凡下界1,其非平凡下界难以分析。如果把神经网络的架构、参数等视为随机变量,则输入空间被划分出的线性区域数目也是一个随机变量。记神经网络使用的激活函数是一个T +1段线性函数(Relu时,T = 1),神经网络有#{neurons} 个神经元。该文章证明,当输入输出维度均为1时,初始化时,如所有神经网络权重有界,则
其中| I | 是输入空间的长度。从而平均意义上,线性区域数目是随神经元个数线性增长的,无论网络深度如何。
进一步,本文推广该结果到n维空间。多维空间的线性区域个数的密度需仔细定义。本文采取投影方法,即对某n维空间的区域K而言,记其体积为
且该区域和输入空间的划分簇相交的部分——即神经网络N不可导的那部分,因为只有在线性区域边界上不可导——在所投射得到的n-1维空间的体积为
其中
本文证明,这部分所占比重随神经元数目线性增长,即:
其中T仍是线性激活函数的段数减去1。更进一步,如果输入数据x在输入空间时均匀分布的话,有
其中
是x到线性区域边界的最短距离。
注意,本文不仅证明如上关系在初始化时成立,且在训练过程中的每一步,即引入优化方法\数据随机性后,上述关系仍然成立。这一结论,强烈反驳了一类认识,即深层网络表现更好,是因为可以学习出指数增长的线性区域数目。
实验验证
文章首先在一维输入空间上验证理论结果,如下图。可见,神经元数目和线性区域数目之比基本是一个常量(纵轴),而无论网络结构如何变化。
在多维空间时,文章利用MNIST数据,得到验证结果如下图:即所有网络,在训练的任何过程中,都有其神经元个数和最短距离之积的期望为近似常数。
文章进一步将实际多个输入数据的最短距离做分布图,如下。可见,在训练过程中,该分布并明显变化。
最后,文章做出示例图如下,显示一个三层、每层64个神经元的神经网络,在MNIST上训练过程中,线性区域数目维持在10的三次方这一量级。
结语
为什么深就是好?这个问题令人着迷。过往认为,深层网络表达能力强,有指数增长的极限能力上界,本文却说明,深层网络相比浅层网络在实际应用中的体现出来的表达能力,以输入空间的线性区域数目来看,平均意义上只随神经元数目线性增长,而和网络深度无关。这一理论结果有待在更复杂的任务上进行实际验证。另外,本文只是关心了一阶统计量,即期望;也许二阶统计量中藏有更有趣的秘密。
最后,有研究指出,深层网络被训练好以后,常常可以找到适当的浅层网络去替代它(Ba & Caruana,2014)。这无疑是本文结果的一个旁证,也暗示了深就是好的原因,也许藏在更容易优化上。这些都有待进一步研究。
本文:Boris Hanin, David Rolnick. Complexity of Linear Regions in Deep Networks. InICML, 2019.
参考文献:
O. Delalleau and Y. Bengio. Shallow vs. deep sum-product networks. In NIPS, 2011.
Telgarsky, M. Representation benefits of deepfeedforward networks. Preprint arXiv:1509.08101, 2015.
Ba, J. and Caruana, R. Do deep nets really need to be deep? In NeurIPS, pp.2654–2662, 2014.
学术头条已建立微信交流群,想进群的同学请加学术君微信:AMiner308,记得备注:名字+单位/学校噢!