【GAN优化】如何选好正则项让你的GAN收敛 / 开普饭

今天讲述的内容还是GAN的训练，也是最后一期，做几个简单的小实验，告诉大家怎么给GAN加正则项，使得你的GAN尽可能收敛。其实今天的内容本来还是与动力学结合很紧密，但是考虑到复杂的数学内容可能有害无益，我就将数学部分都删除了，只展示最直观的结果。

作者&编辑 | 小米粥

上一期我们说了关于GAN收敛的这样一件事情：如果矢量场v的雅可比矩阵的特征值的实部为负数，且学习速率足够小，则GAN会局部收敛到纳什均衡点。假设学习速率确实足够小，单纯考虑特征值的问题。在纳什均衡点，特征值的实数部分能否出现负数？这件事情是与目标函数息息相关的，因为雅可比矩阵的一般形式如下：

不难料想，如果生成器和判别器的目标函数f和g选取得当，上述矩阵的特征值的实数部分确实有可能为负数。今天用一个小实验来盘点一下，到底哪些GAN，哪些目标函数可能收敛。

1. Dirac-GAN

我们将使用一个极其简单的Dirac-GAN模型作为测试对象，在一维空间中，训练数据只有一个点，其位置固定在x=0；生成器只包含一个参数θ，生成样本的位置在x=θ，如下图所示：

判别器为一个简单的线性函数与激活函数复合的形式

包括一个参数φ ，其中f为激活函数。通过选择不同的激活函数f(t)可对应于不同的GAN形式，使用Sigmoid函数

可获得原始形式，而选择

可以得到WGAN的形式。Dirac-GAN的纳什均衡点为(0,0)，即生成的样本与训练数据重合。

接下来，我们依次观察不同的GAN能否收敛到均衡点。需要说明，实际情况远远复杂于Dirac-GAN，样本不只是一维也不可能只存在一个样本点，我们只是通过它来直观说明一些问题，得到一些启示。

2. 标准GAN与WGAN

2.1 标准GAN

标准GAN即Goodfellow首次提出的GAN的标准形式，其损失函数的表达式为：

在Dirac-GAN中，对应的损失函数成为：

相应的动力学系统：

采用梯度下降法发现其并不收敛：

2.2 WGAN

WGAN改进了概率分布之间的距离的度量，其损失函数的表达式为：

在Dirac-GAN中，对应的损失函数成为：

这里有一个简化处理，假设当训练到一定程度时，φ处于0附近，其值自然小于1，满足Lipschitz限制。若只要关心其收敛情况，这样的假设是合理的。相应的动力学系统：

采用梯度下降法则发现其并不收敛：

其实，与简单的Dirac-GAN的实验结果一致，无论是标准形式的GAN或者WGAN，从理论上证明，发现在纳什均衡点(0,0)，其特征值为f'(0)i和-f'(0)i，均不包含实部。根据之前的理论，参数轨迹确实不应该表现为收敛，而且可以进一步证明，它在(0,0)附近的轨迹表现为“圆”，缺乏向纳什均衡点靠拢的“向心力”。

可以说，现在的问题不是选择什么样的f(t)，不是用fGAN或者WGAN的问题了，而是如何调整目标函数，也就是如何添加正则项，从而能解决特征值实部为负数的问题。

3. WGAN-GP

采用惩罚项的WGAN-GP是一种解决1-Lipschitz限制的软方法，其损失函数的表达式为：

在Dirac-GAN中，对应的损失函数成为：

相应的动力学系统：

采用梯度下降法则发现其也不收敛，说明这个正则项加的“不太好”。

4. 一致优化

一致优化是一种理论上比较“有保证”的GAN，具体内容在上一期进行过详细描述，以标准的GAN+一致优化正则项为例，其损失函数的表达式为：

在Dirac-GAN中，对应的损失函数成为：

相应的动力学系统：

结果有点复杂，但是确实在Dirac-GAN中精确收敛至(0,0)：

正如上一期所说，实际情况中必须保证学习速率要足够小，而且要比较好地控制超参数，才可能收敛。

5. zero centered gradient

所谓zero centered gradient与WGAN-GP非常相近，就是添加正则项使判别器对输入的梯度接近一个常数，只不过在WGAN-GP中我们选择常数为1，而这里选择常数为0。（至于为何选择0，这里不展开，以后有机会补充。）再细分下来，又包括两种添加正则项的方法，一种是在真实数据上施加惩罚项，另一种是在生成数据上施加惩罚项。

如果选择在真实数据上施加惩罚项，则其损失函数的表达式为：