> Image by Alina Grubnyak on Unsplash

神经网络是将数据映射到信息的通用逼近器。这是什么意思？神经网络可以解决任何问题吗？神经网络是一种经过验证的解决方案，可用于按场景/逐帧分析，股票价格预测，零售，以及许多其他目的。我们中的许多人在企业级别使用它，但是我们当中有多少人真正理解它呢？

要回答'神经网络可以解决任何问题吗？'的问题，让我们从基础上进行探讨。NeuralNet由称为层的垂直堆叠组件组成：输入，隐藏和输出。每层由一定数量的神经元组成。输入层具有数据集的属性（特征）。根据问题陈述，可以存在具有多个神经元的多个隐藏层，而输出层可以具有多个神经元。

了解感知器和激活功能

感知器（或神经元）是神经网络的基本粒子。它根据阈值化原理工作。令f（x）是一个阈值为40的求和函数。

> Fig 1. Firing of Neurone (Image by Author)

在两种情况下，定义的函数都返回两个输入x 1和x 2的加法。在情况1中，函数返回小于阈值的30。在情况2中，该函数返回大于阈值的50，并且神经元将触发。现在，此功能变得比这复杂。典型神经网络的神经元接收输入值的总和乘以其权重和增加的偏差，该函数（也称为激活函数或步进函数）有助于做出决策。

> Fig 2. Perceptron (Image by Author)

激活函数将节点的输出转换为二进制输出。如果加权输入超过阈值，则为1，否则为0（取决于激活功能）。共有三种最常用的激活功能：

Sigmoid

Sigmoid是一种广泛使用的激活函数，有助于捕获非线性关系。

> Fig 3. Sigmoid Curve (source)

对于任何z值，函数Φ（z）将始终返回二进制（0/1）输出。因此，它被广泛用于基于概率的问题中。

tanh（Tangent双曲线）

它或多或少像Sigmoid函数，但tanh的范围是-1到1，这使其适合分类问题。它是非线性的。

> Fig 4. tanh curve (Image by Author)

ReLu（整流线性单位）

它是深度学习中最常用的激活函数，因为它不像其他激活函数那样复杂。f（x）返回0或x。

> Fig 5. ReLu curve (Image by Author)

由于ReLu函数的导数返回0或1，这使计算变得容易。

神经网络

为了理解神经网络的黑匣子，让我们考虑一个具有三层的基本结构。输入层，密集/隐藏层（连接在神经元的两侧）和输出层。

> Fig 6. A simple Neural Network (Image by Author)

权重和偏差是随机初始化的。神经网络输出的准确性在于通过不断更新权重和偏差来找到最佳值。让我们考虑一个方程，y = wx其中' w'是权重参数，' x'是输入特征。简而言之，权重定义了赋予特定输入属性（功能）的权重。现在，方程y = wx的解将始终通过原点。因此，增加了一个截距以提供自由度，以适应被称为偏差的完美拟合，并且方程式变为我们都熟悉的ŷ= wx + b。因此，偏置可以使激活函数的曲线向上或向下调整轴。

现在让我们看看神经网络会变得多么复杂。对于我们的网络，输入层有两个神经元，密集层有四个神经元，输出层有一个。每个输入值都与其权重和偏差相关联。输入特征与权重和偏差的组合通过密集层，在该层中，网络借助激活函数学习特征，并且网络具有自己的权重和偏差，最后进行预测（输出）。这就是正向传播。那么，我们的网络有多少个总参数？

> Fig 7. Total Parameter calculation of a Neural Network (Image by Author)

对于这样一个简单的网络，总共需要优化17个参数才能获得最佳解决方案。随着隐藏层数量和其中神经元数量的增加，网络获得了更大的功率（达到特定点），但是随后我们需要指数级的参数进行优化，这可能最终会占用大量的计算资源。因此，需要进行权衡。

更新网络

在一次正向传播迭代之后，通过获取实际输出与预测输出之间的（平方）差来计算误差。在网络中，输入和激活功能是固定的。因此，我们可以更改权重和偏差以最小化误差。可以通过注意两点来最大程度地减少错误：通过少量更改权重来更改错误，以及更改的方向。

成本函数

一个简单的神经网络根据线性关系value = wx + b来预测值，其中ŷ（预测）是y（实际）的近似值。现在，可以有几条拟合linear的直线。为了选择最佳拟合线，我们定义了成本函数。

令ŷ=θ₀+xθ₁。我们需要找到θ₀和θ₁的值，以使ŷ与y尽可能接近。为此，我们需要找到θ₀和θ₁的值，以使以下定义的误差最小。

> (Image by Author)

误差，E =实际值和预测值之间的平方差=（=-y）²

因此，Cost =（1 / 2n）（θ₀+xθ₁-y）²，其中n是用于计算均方差的总点数，并且将其除以2以减少数学计算量。因此，我们需要最小化此成本函数。

梯度下降

通过最小化成本函数，该算法有助于找到θ₀和θ₁的最佳值。我知道C =（1 / 2n）（θ₀+xθ₁— y）²。对于分析解决方案，我们将C相对于变量（θ）（称为梯度）进行了部分微分。

这些梯度表示斜率。现在，原始成本函数是二次函数。因此，该图将如下所示：

> Fig 8. Gradient Descent curve (Image by Author)

更新θ的公式为：

如果我们在点P1处，则斜率为负，这使梯度为负，整个方程为正。因此，该点沿正方向向下移动，直到达到最小值。类似地，如果我们在点P2处，则坡度为正，这使梯度为正，整个方程为负，使P2沿负方向移动，直到达到最小值。此处，η是点趋于极小值的速率，称为学习速率。所有θ都会同时更新（对于某些时期），并计算误差。

附带说明

通过这样做，我们可能会遇到两个潜在问题：1.在更新θ值时，您可能会陷入局部最小值。一种可能的解决方案是使用具有动量的随机梯度下降（SGD），这有助于越过局部极小值。2.如果η太小，收敛将花费很长时间。或者，如果η太大（或什至中等偏高），它将继续围绕最小值振荡，并且永远不会收敛。因此，我们不能对所有参数使用相同的学习率。为了解决这个问题，我们可以安排一个例程，该例程会随着梯度向最小值移动（例如余弦衰减）而调整η的值。

后向传播

使用梯度下降算法优化和更新NeuralNet中的权重和偏差的一系列操作。让我们考虑一个具有输入，单个隐藏层和输出的简单神经网络（图2）。

设x为输入，h为隐藏层，σ为S型激活，w权重，b为偏置，wᵢ为输入权重，wₒ为输出权重，bᵢ为输入偏置，bₒ为输出偏置，O为输出，E为误差和μ是线性变换（（∑wᵢxᵢ）+ b）。

现在，我们通过堆叠从输入到输出所需的一系列操作来创建图2的计算图。

> Fig 9. Computation Graph (Image by Author)

这里，E依赖于O，O依赖于μ2，μ2依赖于b 1，w 3和h，h依赖于μ1，并且μ1依赖于x，w 1和b 5。我们需要计算权重和偏差的中间变化（相关性）。由于只有一层隐藏层，因此存在输入和输出权重和偏差。因此，我们可以将其分为两种情况。

案例1：w.r.t.输出权重和偏差

> Fig 10. Computation Graph for case 1 (Image by Author)

因此，通过将导数的值放在上述两个误差变化方程中，可以得到如下的梯度

我们可以通过以下公式更新权重和偏差：

此计算用于隐藏层和输出。同样，对于输入和隐藏层如下。

情况2：w.r.t。输入权重和偏差

> Fig 11. Computation Graph for case 2. (Image by Author)

我们可以使用以下方法更新这些渐变：

两种情况同时发生，并且计算错误直到重复的次数称为时期。对神经网络进行监督。在运行了一定数量的时间后，我们为数据集的选定要素设置了一组优化的权重和偏差。当在此优化网络中引入新输入时，将使用权重和偏差的优化值来计算它们，以实现最大精度。

神经网络可以解决任何问题吗？

如上所述，神经网络是通用逼近器。从理论上讲，它们能够代表任何功能，因此可以解决任何问题。随着网络的增长（更多的隐藏层），它会获得更多的功能，但是要优化的参数数量呈指数级增长，这会占用大量资源。

可以在这里找到实现。

(本文由闻数起舞翻译自Shubham Dhingra的文章《Simplified Mathematics behind Neural Networks》，转载请注明出处，原文链接：
https://towardsdatascience.com/simplified-mathematics-behind-neural-networks-f2b7298f86a4)

神经网络背后的简单数学