梯度下降算法是机器学习中最流行的优化技术之一。它有三种类型：批量梯度下降（GD）、随机梯度下降（SGD）和小批量梯度下降（在每次迭代中用于计算损失函数梯度的数据量不同）。

本文的目标是描述基于朗格文动力学（LD）的全局优化器的研究进展，LD是一种分子运动的建模方法，它起源于20世纪初阿尔伯特·爱因斯坦和保罗·朗之万关于统计力学的著作。

我将从理论物理学的角度提供一个优雅的解释，为什么梯度下降的变种是有效的全局优化器。

奇迹的一年

没有迹象表明一场革命即将发生。1904年，如果阿尔伯特·爱因斯坦放弃了物理学，他的科学家同行们可能甚至都不会注意到。幸运的是，这并没有发生。1905年，这位年轻的专利职员发表了四篇革命性的论文。

阿尔伯特·爱因斯坦

流体中的随机运动

在其中一篇论文中，爱因斯坦推导出了所谓的布朗运动模型，即液体中悬浮粒子的随机运动，由与更小、快速运动的分子（例如在水中运动的花粉颗粒）的碰撞引起。

布朗运动：尘埃粒子与气体分子的碰撞

在这篇论文中，他证实了原子和分子的存在，由此诞生了物理学的一个新的分支——分子动力学，创造了应用数学的一个崭新领域——随机微积分。

朗之万动力学

1908年，在爱因斯坦发表他的里程碑式论文三年后，法国物理学家保罗·朗之万发表了另一篇开创性的文章，他在文中概括了爱因斯坦的理论，并发展了一个描述布朗运动的新微分方程，即今天的朗之万方程（LE）：

其中x是运动粒子的位置，m是它的质量，R表示一个（随机的）力产生与较小的，快速移动的流体分子的碰撞（见上面的动画），F表示任何其他外力。随机力R是一个delta相关的平稳高斯过程，其均值和方差如下：

R是一个正常的过程。

术语“delta相关”意味着两个不同时间的力是零相关的。LE是第一个描述不平衡热力学的数学方程。

法国物理学家保罗·朗之万

如果粒子的质量足够小，我们可以把左边设为零。此外，我们可以用某个势能的导数来表示一个（保守）力。我们得到：

小质量的朗之万方程

写作：

其中δt是一个小时间间隔，并有移动项，我们得到了小质量粒子的离散朗之万方程：

小惯性粒子的离散朗之万方程。

用这种方式表示，朗之万方程描述了经历布朗运动的粒子的增量位移。

布朗运动的Python代码

为了模拟二维离散布朗过程，采用了两种一维过程。步骤如下：

首先，选择时间步数“steps”。
坐标x和y是随机跳跃的累积和（函数np.cumsum()用于计算它们）。
中间点X和Y通过使用np.interp()插值计算。
然后使用plot()函数绘制布朗运动。

代码是：

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inlinesteps = 5000
random.seed(42)
x,y = np.cumsum(np.random.randn(steps)), np.cumsum(np.random.randn(steps))points = 10
ip = lambda x, steps, points: np.interp(np.arange(steps*points),
np.arange(steps)*points,
x)
X, Y = ip(x, steps, points), ip(y, steps, points)fig, ax = plt.subplots(1, 1, figsize=(10, 10))
ax.set_title('Brownian Motion')
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.plot(X, Y, color='blue',
marker='o', markersize=1)