在深度神经网络（DNN）模型与前向传播算法中，我们对DNN的模型和前向传播算法做了总结，这里我们更进一步，对DNN的反向传播算法（Back Propagation，BP）做一个总结。

1. DNN反向传播算法要解决的问题

　　　　在了解DNN的反向传播算法前，我们先要知道DNN反向传播算法要解决的问题，也就是说，什么时候我们需要这个反向传播算法？　

　　　　回到我们监督学习的一般问题，假设我们有m个训练样本：{(x1,y1),(x2,y2),...,(xm,ym)}" role="presentation" style="position: relative;">{(𝑥1,𝑦1),(𝑥2,𝑦2),...,(𝑥𝑚,𝑦𝑚)}{(x1,y1),(x2,y2),...,(xm,ym)},其中x" role="presentation" style="position: relative;">𝑥x为输入向量，特征维度为n_in" role="presentation" style="position: relative;">𝑛_𝑖𝑛n_in,而y" role="presentation" style="position: relative;">𝑦y为输出向量，特征维度为n_out" role="presentation" style="position: relative;">𝑛_𝑜𝑢𝑡n_out。我们需要利用这m个样本训练出一个模型，当有一个新的测试样本(xtest,?)" role="presentation" style="position: relative;">(𝑥𝑡𝑒𝑠𝑡,?)(xtest,?)来到时, 我们可以预测ytest" role="presentation" style="position: relative;">𝑦𝑡𝑒𝑠𝑡ytest向量的输出。　

　　　　如果我们采用DNN的模型，即我们使输入层有n_in" role="presentation" style="position: relative;">𝑛_𝑖𝑛n_in个神经元，而输出层有n_out" role="presentation" style="position: relative;">𝑛_𝑜𝑢𝑡n_out个神经元。再加上一些含有若干神经元的隐藏层。此时我们需要找到合适的所有隐藏层和输出层对应的线性系数矩阵W" role="presentation" style="position: relative;">𝑊W,偏倚向量b" role="presentation" style="position: relative;">𝑏b,让所有的训练样本输入计算出的输出尽可能的等于或很接近样本输出。怎么找到合适的参数呢？

　　　　如果大家对传统的机器学习的算法优化过程熟悉的话，这里就很容易联想到我们可以用一个合适的损失函数来度量训练样本的输出损失，接着对这个损失函数进行优化求最小化的极值，对应的一系列线性系数矩阵W" role="presentation" style="position: relative;">𝑊W,偏倚向量b" role="presentation" style="position: relative;">𝑏b即为我们的最终结果。在DNN中，损失函数优化极值求解的过程最常见的一般是通过梯度下降法来一步步迭代完成的，当然也可以是其他的迭代方法比如牛顿法与拟牛顿法。如果大家对梯度下降法不熟悉，建议先阅读我之前写的梯度下降（Gradient Descent）小结。

　　　　对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为我们的反向传播算法。

　　　　本篇使用了矩阵向量求导，如果你对这一块不熟悉，请先阅读下我写的矩阵向量求导系列文章。

2. DNN反向传播算法的基本思路

　　　　在进行DNN反向传播算法前，我们需要选择一个损失函数，来度量训练样本计算出的输出和真实的训练样本输出之间的损失。你也许会问：训练样本计算出的输出是怎么得来的？这个输出是随机选择一系列W,b" role="presentation" style="position: relative;">𝑊,𝑏W,b,用我们上一节的前向传播算法计算出来的。即通过一系列的计算：al=σ(zl)=σ(Wlal−1+bl)" role="presentation" style="position: relative;">𝑎𝑙=𝜎(𝑧𝑙)=𝜎(𝑊𝑙𝑎𝑙−1+𝑏𝑙)al=σ(zl)=σ(Wlal−1+bl)。计算到输出层第L" role="presentation" style="position: relative;">𝐿L层对应的aL" role="presentation" style="position: relative;">𝑎𝐿aL即为前向传播算法计算出来的输出。

　　　　回到损失函数，DNN可选择的损失函数有不少，为了专注算法，这里我们使用最常见的均方差来度量损失。即对于每个样本，我们期望最小化下式：

J(W,b,x,y)=12||aL−y||22" role="presentation" style="position: relative;">𝐽(𝑊,𝑏,𝑥,𝑦)=12||𝑎𝐿−𝑦||22J(W,b,x,y)=12||aL−y||22

　　　　其中，aL" role="presentation" style="position: relative;">𝑎𝐿aL和y" role="presentation" style="position: relative;">𝑦y为特征维度为n_out" role="presentation" style="position: relative;">𝑛_𝑜𝑢𝑡n_out的向量,而||S||2" role="presentation" style="position: relative;">||𝑆||2||S||2为S的L2范数。

　　　　损失函数有了，现在我们开始用梯度下降法迭代求解每一层的W,b" role="presentation" style="position: relative;">𝑊,𝑏W,b。

　　　　首先是输出层第L" role="presentation" style="position: relative;">𝐿L层。注意到输出层的W,b" role="presentation" style="position: relative;">𝑊,𝑏W,b满足下式：

aL=σ(zL)=σ(WLaL−1+bL)" role="presentation" style="position: relative;">𝑎𝐿=𝜎(𝑧𝐿)=𝜎(𝑊𝐿𝑎𝐿−1+𝑏𝐿)aL=σ(zL)=σ(WLaL−1+bL)

　　　　这样对于输出层的参数，我们的损失函数变为：

J(W,b,x,y)=12||aL−y||22=12||σ(WLaL−1+bL)−y||22" role="presentation" style="position: relative;">𝐽(𝑊,𝑏,𝑥,𝑦)=12||𝑎𝐿−𝑦||22=12||𝜎(𝑊𝐿𝑎𝐿−1+𝑏𝐿)−𝑦||22J(W,b,x,y)=12||aL−y||22=12||σ(WLaL−1+bL)−y||22

　　　　这样求解W,b" role="presentation" style="position: relative;">𝑊,𝑏W,b的梯度就简单了：

∂J(W,b,x,y)∂WL=[(aL−y)⊙σ′(zL)](aL−1)T" role="presentation" style="position: relative;">∂𝐽(𝑊,𝑏,𝑥,𝑦)∂𝑊𝐿=[(𝑎𝐿−𝑦)⊙𝜎′(𝑧𝐿)](𝑎𝐿−1)𝑇∂J(W,b,x,y)∂WL=[(aL−y)⊙σ′(zL)](aL−1)T

∂J(W,b,x,y)∂bL=(aL−y)⊙σ′(zL)" role="presentation" style="position: relative;">∂𝐽(𝑊,𝑏,𝑥,𝑦)∂𝑏𝐿=(𝑎𝐿−𝑦)⊙𝜎′(𝑧𝐿)∂J(W,b,x,y)∂bL=(aL−y)⊙σ′(zL)

　　　　注意上式中有一个符号⊙" role="presentation" style="position: relative;">⊙⊙,它代表Hadamard积，对于两个维度相同的向量A（a1,a2,...an）T" role="presentation" style="position: relative;">𝐴（𝑎1,𝑎2,...𝑎𝑛）𝑇A（a1,a2,...an）T和B（b1,b2,...bn）T" role="presentation" style="position: relative;">𝐵（𝑏1,𝑏2,...𝑏𝑛）𝑇B（b1,b2,...bn）T,则A⊙B=(a1b1,a2b2,...anbn)T" role="presentation" style="position: relative;">𝐴⊙𝐵=(𝑎1𝑏1,𝑎2𝑏2,...𝑎𝑛𝑏𝑛)𝑇A⊙B=(a1b1,a2b2,...anbn)T。

　　　　我们注意到在求解输出层的W,b" role="presentation" style="position: relative;">𝑊,𝑏W,b的时候，有中间依赖部分∂J(W,b,x,y)∂zL" role="presentation" style="position: relative;">∂𝐽(𝑊,𝑏,𝑥,𝑦)∂𝑧𝐿∂J(W,b,x,y)∂zL，因此我们可以把公共的部分即对zL" role="presentation" style="position: relative;">𝑧𝐿zL先算出来，记为：

δL=∂J(W,b,x,y)∂zL=(aL−y)⊙σ′(zL)" role="presentation" style="position: relative;">𝛿𝐿=∂𝐽(𝑊,𝑏,𝑥,𝑦)∂𝑧𝐿=(𝑎𝐿−𝑦)⊙𝜎′(𝑧𝐿)δL=∂J(W,b,x,y)∂zL=(aL−y)⊙σ′(zL)

　　　　现在我们终于把输出层的梯度算出来了，那么如何计算上一层L−1" role="presentation" style="position: relative;">𝐿−1L−1层的梯度，上上层L−2" role="presentation" style="position: relative;">𝐿−2L−2层的梯度呢？这里我们需要一步步的递推，注意到对于第l" role="presentation" style="position: relative;">𝑙l层的未激活输出zl" role="presentation" style="position: relative;">𝑧𝑙zl，它的梯度可以表示为:

δl=∂J(W,b,x,y)∂zl=(∂zL∂zL−1∂zL−1∂zL−2...∂zl+1∂zl)T∂J(W,b,x,y)∂zL" role="presentation" style="position: relative;">𝛿𝑙=∂𝐽(𝑊,𝑏,𝑥,𝑦)∂𝑧𝑙=(∂𝑧𝐿∂𝑧𝐿−1∂𝑧𝐿−1∂𝑧𝐿−2...∂𝑧𝑙+1∂𝑧𝑙)𝑇∂𝐽(𝑊,𝑏,𝑥,𝑦)∂𝑧𝐿δl=∂J(W,b,x,y)∂zl=(∂zL∂zL−1∂zL−1∂zL−2...∂zl+1∂zl)T∂J(W,b,x,y)∂zL

　　　　如果我们可以依次计算出第l" role="presentation" style="position: relative;">𝑙l层的δl" role="presentation" style="position: relative;">𝛿𝑙δl,则该层的Wl,bl" role="presentation" style="position: relative;">𝑊𝑙,𝑏𝑙Wl,bl很容易计算？为什么呢？注意到根据前向传播算法，我们有：

zl=Wlal−1+bl" role="presentation" style="position: relative;">𝑧𝑙=𝑊𝑙𝑎𝑙−1+𝑏𝑙zl=Wlal−1+bl

　　　　所以根据上式我们可以很方便的计算出第l层的Wl,bl" role="presentation" style="position: relative;">𝑊𝑙,𝑏𝑙Wl,bl的梯度如下：

∂J(W,b,x,y)∂Wl=δl(al−1)T" role="presentation" style="position: relative;">∂𝐽(𝑊,𝑏,𝑥,𝑦)∂𝑊𝑙=𝛿𝑙(𝑎𝑙−1)𝑇∂J(W,b,x,y)∂Wl=δl(al−1)T

∂J(W,b,x,y)∂bl=δl" role="presentation" style="position: relative;">∂𝐽(𝑊,𝑏,𝑥,𝑦)∂𝑏𝑙=𝛿𝑙∂J(W,b,x,y)∂bl=δl

　　　　其中，第一个式子的推导可以参考机器学习中的矩阵向量求导(四) 矩阵向量求导链式法则中第三节的最后一个公式。

　　　　那么现在问题的关键就是要求出δl" role="presentation" style="position: relative;">𝛿𝑙δl了。这里我们用数学归纳法，第L" role="presentation" style="position: relative;">𝐿L层的δL" role="presentation" style="position: relative;">𝛿𝐿δL上面我们已经求出，假设第l+1" role="presentation" style="position: relative;">𝑙+1l+1层的δl+1" role="presentation" style="position: relative;">𝛿𝑙+1δl+1已经求出来了，那么我们如何求出第l" role="presentation" style="position: relative;">𝑙l层的δl" role="presentation" style="position: relative;">𝛿𝑙δl呢？我们注意到：

δl=∂J(W,b,x,y)∂zl=(∂zl+1∂zl)T∂J(W,b,x,y)∂zl+1=(∂zl+1∂zl)Tδl+1" role="presentation" style="position: relative;">𝛿𝑙=∂𝐽(𝑊,𝑏,𝑥,𝑦)∂𝑧𝑙=(∂𝑧𝑙+1∂𝑧𝑙)𝑇∂𝐽(𝑊,𝑏,𝑥,𝑦)∂𝑧𝑙+1=(∂𝑧𝑙+1∂𝑧𝑙)𝑇𝛿𝑙+1δl=∂J(W,b,x,y)∂zl=(∂zl+1∂zl)T∂J(W,b,x,y)∂zl+1=(∂zl+1∂zl)Tδl+1

　　　　可见，用归纳法递推δl+1" role="presentation" style="position: relative;">𝛿𝑙+1δl+1和δl" role="presentation" style="position: relative;">𝛿𝑙δl的关键在于求解∂zl+1∂zl" role="presentation" style="position: relative;">∂𝑧𝑙+1∂𝑧𝑙∂zl+1∂zl。

　　　　而zl+1" role="presentation" style="position: relative;">𝑧𝑙+1zl+1和zl" role="presentation" style="position: relative;">𝑧𝑙zl的关系其实很容易找出：

zl+1=Wl+1al+bl+1=Wl+1σ(zl)+bl+1" role="presentation" style="position: relative;">𝑧𝑙+1=𝑊𝑙+1𝑎𝑙+𝑏𝑙+1=𝑊𝑙+1𝜎(𝑧𝑙)+𝑏𝑙+1zl+1=Wl+1al+bl+1=Wl+1σ(zl)+bl+1

　　　　这样很容易求出：

∂zl+1∂zl=Wl+1diag(σ′(zl))" role="presentation" style="position: relative;">∂𝑧𝑙+1∂𝑧𝑙=𝑊𝑙+1𝑑𝑖𝑎𝑔(𝜎′(𝑧𝑙))∂zl+1∂zl=Wl+1diag(σ′(zl))

　　　　将上式带入上面δl+1" role="presentation" style="position: relative;">𝛿𝑙+1δl+1和δl" role="presentation" style="position: relative;">𝛿𝑙δl关系式我们得到：

δl=(∂zl+1∂zl)T∂J(W,b,x,y)∂zl+1=diag(σ′(zl))(Wl+1)Tδl+1=(Wl+1)Tδl+1⊙σ′(zl)" role="presentation" style="position: relative;">𝛿𝑙=(∂𝑧𝑙+1∂𝑧𝑙)𝑇∂𝐽(𝑊,𝑏,𝑥,𝑦)∂𝑧𝑙+1=𝑑𝑖𝑎𝑔(𝜎′(𝑧𝑙))(𝑊𝑙+1)𝑇𝛿𝑙+1=(𝑊𝑙+1)𝑇𝛿𝑙+1⊙𝜎′(𝑧𝑙)δl=(∂zl+1∂zl)T∂J(W,b,x,y)∂zl+1=diag(σ′(zl))(Wl+1)Tδl+1=(Wl+1)Tδl+1⊙σ′(zl)

　　　　现在我们得到了δl" role="presentation" style="position: relative;">𝛿𝑙δl的递推关系式，只要求出了某一层的δl" role="presentation" style="position: relative;">𝛿𝑙δl，求解Wl,bl" role="presentation" style="position: relative;">𝑊𝑙,𝑏𝑙Wl,bl的对应梯度就很简单的。

3. DNN反向传播算法过程

　　　　现在我们总结下DNN反向传播算法的过程。由于梯度下降法有批量（Batch），小批量(mini-Batch)，随机三个变种，为了简化描述，这里我们以最基本的批量梯度下降法为例来描述反向传播算法。实际上在业界使用最多的是mini-Batch的梯度下降法。不过区别仅仅在于迭代时训练样本的选择而已。

　　　　输入: 总层数L，以及各隐藏层与输出层的神经元个数，激活函数，损失函数，迭代步长α" role="presentation" style="position: relative;">𝛼α,最大迭代次数MAX与停止迭代阈值ϵ" role="presentation" style="position: relative;">𝜖ϵ，输入的m个训练样本{(x1,y1),(x2,y2),...,(xm,ym)}" role="presentation" style="position: relative;">{(𝑥1,𝑦1),(𝑥2,𝑦2),...,(𝑥𝑚,𝑦𝑚)}{(x1,y1),(x2,y2),...,(xm,ym)}

　　　　输出：各隐藏层与输出层的线性关系系数矩阵W" role="presentation" style="position: relative;">𝑊W和偏倚向量b" role="presentation" style="position: relative;">𝑏b

　　　　1) 初始化各隐藏层与输出层的线性关系系数矩阵W" role="presentation" style="position: relative;">𝑊W和偏倚向量b" role="presentation" style="position: relative;">𝑏b的值为一个随机值。

　　　 2）for iter to 1 to MAX：

　　　　2-1) for i =1 to m：

　　　　　　a) 将DNN输入a1" role="presentation" style="position: relative;">𝑎1a1设置为xi" role="presentation" style="position: relative;">𝑥𝑖xi

　　　　　　b) for l" role="presentation" style="position: relative;">𝑙l=2 to L，进行前向传播算法计算ai,l=σ(zi,l)=σ(Wlai,l−1+bl)" role="presentation" style="position: relative;">𝑎𝑖,𝑙=𝜎(𝑧𝑖,𝑙)=𝜎(𝑊𝑙𝑎𝑖,𝑙−1+𝑏𝑙)ai,l=σ(zi,l)=σ(Wlai,l−1+bl)

　　　　　　c) 通过损失函数计算输出层的δi,L" role="presentation" style="position: relative;">𝛿𝑖,𝐿δi,L

　　　　　　d) for l" role="presentation" style="position: relative;">𝑙l= L-1 to 2, 进行反向传播算法计算δi,l=(Wl+1)Tδi,l+1⊙σ′(zi,l)" role="presentation" style="position: relative;">𝛿𝑖,𝑙=(𝑊𝑙+1)𝑇𝛿𝑖,𝑙+1⊙𝜎′(𝑧𝑖,𝑙)δi,l=(Wl+1)Tδi,l+1⊙σ′(zi,l)

　　　　2-2) for l" role="presentation" style="position: relative;">𝑙l = 2 to L，更新第l" role="presentation" style="position: relative;">𝑙l层的Wl,bl" role="presentation" style="position: relative;">𝑊𝑙,𝑏𝑙Wl,bl:

Wl=Wl−α∑i=1mδi,l(ai,l−1)T" role="presentation" style="position: relative;">𝑊𝑙=𝑊𝑙−𝛼∑𝑖=1𝑚𝛿𝑖,𝑙(𝑎𝑖,𝑙−1)𝑇Wl=Wl−α∑i=1mδi,l(ai,l−1)T

bl=bl−α∑i=1mδi,l" role="presentation" style="position: relative;">𝑏𝑙=𝑏𝑙−𝛼∑𝑖=1𝑚𝛿𝑖,𝑙bl=bl−α∑i=1mδi,l

　　　　2-3) 如果所有W，b" role="presentation" style="position: relative;">𝑊，𝑏W，b的变化值都小于停止迭代阈值ϵ" role="presentation" style="position: relative;">𝜖ϵ，则跳出迭代循环到步骤3。

　　　　3）输出各隐藏层与输出层的线性关系系数矩阵W" role="presentation" style="position: relative;">𝑊W和偏倚向量b" role="presentation" style="position: relative;">𝑏b。

4. DNN反向传播算法小结

　　　　有了DNN反向传播算法，我们就可以很方便的用DNN的模型去解决第一节里面提到了各种监督学习的分类回归问题。当然DNN的参数众多，矩阵运算量也很大，直接使用会有各种各样的问题。有哪些问题以及如何尝试解决这些问题并优化DNN模型与算法，我们在下一篇讲。

（欢迎转载，转载请注明出处。欢迎沟通交流： liujianping-ok@163.com）

参考资料：

1） Neural Networks and Deep Learning by By Michael Nielsen

2） Deep Learning, book by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

3） UFLDL Tutorial

深度神经网络（DNN）反向传播算法(BP)

1. DNN反向传播算法要解决的问题

2. DNN反向传播算法的基本思路

3. DNN反向传播算法过程

4. DNN反向传播算法小结

参考资料：

相关推荐