为什么梯度是函数变化最快的方向

前言

机器学习中的大部分问题都是优化问题,而绝大部分优化问题都可以用梯度下降法来解决。本文详细的解释了高数中几个易混淆的重要概念,如导数和微分的区别,偏导数的概念,方向导数和梯度的关系,若完全掌握这几个概念,就能很好的理解梯度为什么是函数变化最快的方向的问题。

目录


1、导数和微分

2、偏导数

3、方向导数和梯度的关系

4、总结

导数和微分

导数的定义

本质:导数描述的是函数在一点处的变化快慢的趋势,是一个变化的速率。如曲线方程的导数是随点变化的斜率,运动方程的导数是随时间变化的速率。

微分的定义

本质:微分描述的是函数从一个点移动到另一个无穷小的点所产生的的变化量。

函数增量与微分的关系

本节分别从图形角度和代数角度去分析函数增量与微分的关系:

  • 图形角度:

如上图所示,函数f(x)在M点处的导数为直线T的斜率tanα,Δy是M点移动Δx时的函数增量,dy为函数相对于Δx的微分。

当Δx->0时,

  • 代数角度:

偏导数

偏导数是函数相对于某一轴方向的导数,其他轴方向则假设为常数,若考虑二元变量f(x,y),偏导数定义如下:

导数的几何意义

方向导数和梯度的关系

方向导数

我们还是以讨论偏导数的图来解释方向导数。令曲面方程z=f(x,y)投影到XY平面,得到投影平面,如下图:

M1为M0在XY面的投影点,由上图可知,有无数条直线经过M1点,这些直线代表方向,我们认为曲面M1点的方向导数就是求这些直线方向的导数,M1点的方向导数也是无穷多个,我们用变量α来代表不同的方向直线。

梯度

梯度是一个矢量,曲面上每点的梯度是常数,P0点的梯度如下:

方向导数和梯度的关系

求上图曲面M0中P点的梯度和方向导数

梯度和方向导数的单位向量分别如下两图:

平移梯度向量,使之与方向导数的单位向量相交,夹角为θ,如下图:

红色直线代表梯度,蓝色代表方向导数的单位向量,取该两个向量的内积,得:

结论:曲面中点的方向导数有无数个,当方向导数与梯度方向一致时,该导数值取得最大,等价于该点在梯度方向具有最快的变化值。梯度方向是函数值增加最快的方向,梯度的反方向是函数值减小最快的方向。

总结

本文介绍了高数教材中几个易混淆的概念,结合图解法和公式推导法证明了方向导数和梯度方向一致时,函数值是变化最快的。因此,机器学习常用梯度法去解决最优化问题。

参考

《高等数学》第七版,同济大学

(0)

相关推荐