超越ReLU却鲜为人知，3年后被挖掘：BERT、GPT-2等都在用的激活函数

2024-06-19 10:52:23

机器之心报道

机器之心编辑部

至少在NLP领域里，GELU已经成为了众多业内最佳模型的选择。

作为决定神经网络是否传递信息的「开关」，激活函数对于神经网络而言至关重要。不过今天被人们普遍采用的 ReLU 真的是最高效的方法吗？最近在社交网络上，人们找到了一个看来更强大的激活函数：GELU，这种方法早在 2016 年即被人提出，然而其论文迄今为止在 Google Scholar 上的被引用次数却只有 34 次。

其实，GELU 已经被很多目前最为领先的模型所采用。据不完全统计，BERT、RoBERTa、ALBERT 等目前业内顶尖的 NLP 模型都使用了这种激活函数。另外，在 OpenAI 声名远播的无监督预训练模型 GPT-2 中，研究人员在所有编码器模块中都使用了 GELU 激活函数。

GELU 论文的作者来自 UC Berkeley 和丰田工业大学芝加哥分校：

论文链接：https://arxiv.org/pdf/1606.08415.pdf

「现任」最流行的激活函数 ReLU

在讲述 GELU 之前，让我们先回顾一下目前最为流行的线性整流函数（Rectified Linear Unit, ReLU），它又称修正线性单元。RELU 是多伦多大学 Vinod Nair 与图灵奖获得者 Geoffrey Hinton 等人的研究，其研究被 ICML 2010 大会接收。

RELU 是人工神经网络中最常用的激活函数（activation function），通常指代以「斜坡」函数及其变种为代表的非线性函数族。这个函数族比较常见的有 ReLU 以及 Leaky ReLU。

通常意义下，线性整流函数指代数学中的斜坡函数，即：

函数图像如下：

而在神经网络中，线性整流作为神经元的激活函数，定义了该神经元在线性变换之后的非线性输出结果。ReLU 可以对抗梯度爆炸/消失问题，相对而言计算效率也很高。因为在 2012 年被著名的计算机视觉模型 AlexNet 应用，ReLU 变得流行开来，目前它被普遍认为是效果最好的激活函数。

激活函数发展史

早期人工神经元使用二元阈值单元（Hopfield, 1982; McCulloch & Pitts, 1943）。这些困难的二元决策通过 Sigmoid 激活函数进行平滑化，从而具有非常快的解码速度，并可以利用反向传播进行训练。但是，随着网络深度的不断增加，利用 Sigmoid 激活函数来训练被证实不如非平滑、低概率性的 ReLU 有效（Nair & Hinton, 2010），因为 ReLU 基于输入信号做出门控决策。

尽管 ReLU 缺少统计学意义上的支持，但依然是一种非常有竞争力的工程解决方案，其收敛速度和效果好于 Sigmoid 激活函数。得益于 ReLU 的成功，近来有一个它的改进版——ELU 函数。这种函数可以让类似 ReLU 的非线性函数能够输出负值并提升训练速度。总之，对于激活函数的选择也是神经网络架构设计中重要的一部分。

深度非线性分类器可以和数据拟合地很好，使得设计者需要面对随机正则化（如在隐层中加入噪声）或者采用 dropout 机制。这两个选择依然是和激活函数割裂的。一些随机正则化可以让网络表现得像是很多个网络的组合，并可以提升精确度。

因此，非线性和 dropout 共同决定了神经元的输出，但这两种创新依然存在区别。此外，非线性和 dropout 彼此也不将对方包含在内，因为流行的随机正则化在执行时与输入无关，并且非线性也获得此类正则化的辅助。

在本文中，研究者提出了一种新的非线性激活函数，名为高斯误差线性单元（Gaussian Error Linear Unit，GELU）。GELU 与随机正则化有关，因为它是自适应 Dropout 的修正预期（Ba & Frey, 2013）。这表明神经元输出的概率性更高。研究者发现，在计算机视觉、自然语言处理和自动语音识别等任务上，使用 GELU 激活函数的模型性能与使用 ReLU 或 ELU 的模型相当或超越了它们。

GELU 激活函数，来点数学

研究者表明，受到 Dropout、ReLU 等机制的影响，它们都希望将「不重要」的激活信息规整为零。我们可以理解为，对于输入的值，我们根据它的情况乘上 1 或 0。更「数学」一点的描述是，对于每一个输入 x，其服从于标准正态分布 N(0, 1)，它会乘上一个伯努利分布 Bernoulli(Φ(x))，其中Φ(x) = P(X ≤ x)。

随着 x 的降低，它被归零的概率会升高。对于 ReLU 来说，这个界限就是 0，输入少于零就会被归零。这一类激活函数，不仅保留了概率性，同时也保留了对输入的依赖性。

好了，现在我们可以看看 GELU 到底长什么样子了。我们经常希望神经网络具有确定性决策，这种想法催生了 GELU 激活函数的诞生。这种函数的非线性希望对输入 x 上的随机正则化项做一个转换，听着比较费劲，具体来说可以表示为：Φ(x) × Ix + (1 − Φ(x)) × 0x = xΦ(x)。

我们可以理解为，对于一部分Φ(x)，它直接乘以输入 x，而对于另一部分 (1 − Φ(x))，它们需要归零。不太严格地说，上面这个表达式可以按当前输入 x 比其它输入大多少来缩放 x。

因为高斯概率分布函数通常根据损失函数计算，因此研究者定义高斯误差线性单元（GELU）为：

上面这个函数是无法直接计算的，因此可以通过另外的方法来逼近这样的激活函数，研究者得出来的表达式为：

虽然研究者表示高斯概率分布函数的均值与方差都可以设置为可训练，但他们简单地采用均值为 0 方差为 1。看到这样的表达式，让人想到了谷歌 2017 年提出来的 Swish 激活函数，它的表达式可以简单写为：f(x) = x · sigmoid(x)。

GELU 激活函数的图像。

在 Quoc V. Le 等人研究的成果中，他们将 Swish 激活函数定义为 x · σ(βx)，其中 σ() 是标准的 sigmoid 函数，β可以是常数，也可以是可训练的参数。这样的激活函数是「被搜索」出来的，研究者在一系列函数族中做自动搜索，并表示 Swish 激活函数的效果最好。

通过搜索查找到的激活函数，它们效果都还不错，选自 arXiv: 1710.05941。

不服跑分：GELU vs ReLU

研究者对 GELU 和 ReLU、ELU 三个激活函数进行了性能上的比较。他们选择了以下任务：

MNIST 图片分类（10 类，6 万张训练图片和 1 万张测试图片）；
TIMIT 语音识别（3696 个训练样本、1152 个验证样本和 192 个测试样本）；
CIFAR-10/100 分类（10/100 个类，5 万的训练样本和 1 万的测试样本）。

MNIST 图片分类任务

研究者在一个全连接网络中测试了 MNIST 分类任务，其中 GELU 的参数是μ = 0、σ = 1。ELU 则是α = 1。每个网络都有 8 个层、128 个神经元。

图 2 左：无 dropout 模型，图右：模型设置 dropout 为 0.5。

图 3：MNIST 鲁棒性结果。

TIMIT 语音识别任务

研究者需要解决的另一项挑战是利用 TIMIT 数据集进行音素识别（phone recognition），该数据集包含 680 名说话者在无声环境中的录音。该系统是一个包含 2048 个神经元的 5 层宽分类器（Mohamed et al., 2012），包含 39 个输出语音标签。

图 5：TIMIT 语音识别变化曲线图。

CIFAR-10/100 分类任务

研究者利用 5000 个验证样本来对初始学习率 {10^−3,10^−4,10^−5} 进行微调，然后基于交叉验证的学习率再次在整个训练集上进行训练。他们通过 Adam 对 200 个 epoch 优化，并在第 100 个 epoch 上学习率衰减为零。如下图 6 所示，每条曲线是三次运行结果取中间值得出的。

图 6：CIFAR-10 数据集上的结果。

不服跑分：GELU vs Swish

因为表达式差不多，一个是固定系数 1.702，另一个是可变系数 β，Swish 和 GELU 的性质与效果非常类似。在 Swish 论文（SEARCHING FOR ACTIVATION FUNCTIONS）中，研究者对比了不同激活函数的效果，我们可以看到在视觉或语言任务中，Swish 效果要更好一些。

例如在 ImageNet 中训练 Inception-ResNet-v2，Swish 还是要稍微超过 GELU，其中每一个评估值都记录了三次运行的结果。

在机器翻译任务上，研究者在 WMT 2014 English→German 数据集上测试了 12 层 Transformer 的效果。在不同的测试集上，似乎 Swish 激活函数都是最好的，当然 GELU 的效果也不差，它们相差并不大。

最后，我们在 GELU 的引用文献中发现了大量序列建模都采用它作为激活函数，不论是语言建模还是声学建模。也许之前序列建模常采用 tanh() 而不是 ReLU() 作为激活函数，在发现有更好的选择后，更多的研究者尝试接受这种非线性单元。

如前文所述，GELU 的近似实现方式有两种，借助 tanh() 和借助σ()。我们在 GPT-2 的官方代码中也发现，更多研究者采用了 tanh() 的实现方式尽管它看起来要比 xσ(1.702x) 复杂很多。

# GPT-2 的 GELU 实现def gelu(x): return 0.5*x*(1+tf.tanh(np.sqrt(2/np.pi)*(x+0.044715*tf.pow(x, 3))))

不管怎么样，作为神经网络最基础的模块，我们总希望在 ReLU 之上，在 GELU 和 Swish 之上能有更多的创新与观点。

谷歌大脑Quoc发布Primer，从操作原语搜索高效Transformer变体

新智元报道来源:arXiv 编辑:LRS [新智元导读]调参.改激活函数提高模型性能已经见怪不改了.最近Google Brain的首席Quoc发布了一个搜索框架,能够自动搜索高效率的Tran ...
强化学习成大热门！ICML 2020 热门话题引用量最高的论文

热门主题根据对入选论文标题的关键词分析,入选前10的热门话题为:强化学习,神经网络,Bandit,高斯过程,图,表示,最优输运,网络,随机性,表示学习. 不同主题高引论文利用 Aminer 按主题 ...
CVPR 2021 | 自适应激活函数ACON: 统一ReLU和Swish的新范式

论文地址:https://arxiv.org/pdf/2009.04759.pdf 论文代码:https://github.com/nmaac/acon 本文提出一种新的激活函数ACON (activ ...
简洁的架构还能高效和准确？清华&华为提出新型残差循环超分模型：RRN！

作者单位:清华大学.纽约大学.华为诺亚方舟实验室 1 看点本文提出了一种简洁而又高效的超分架构,在测试集上一帧只需45ms PSNR就可以达到27.69,具有很大的实用价值,亮点如下: 以往已经提出 ...
【生成模型】关于无监督生成模型，你必须知道的基础

大家好,小米粥销声匿迹了很长一段时间,今天又杀回来啦!这次主要是介绍下生成模型的相关内容,尤其是除了GAN之外的其他生成模型,另外应部分读者要求,本系列内容增添了代码讲解,希望能使大家获益,更希望大家 ...
如何通过工作记忆训练来提高智力？

智力是人们认识和理解客观事物,并运用知识和经验等解决问题的能力,它包括观察力.记忆力.想象力.分析判断能力.思维能力.应变能力等.智力渗透在我们工作.学习和生活的方方面面,小到买菜算账,大到制造高铁火 ...
时隔6年，“三巨头”再度联手，发布万字长文：深度学习将通往何方？

继2015年在Nature上发表"Deep Learning"一文以来,近期,2018年图灵奖获得者."深度学习三巨头 "Yoshua Bengio.Yann ...
李煜此词问世后，都认为无法再超越，直到700多年后纳兰性德出手

看<中国诗词大会>时,导师王立群曾这样评价李煜的词:他的词就是一堆最简单的字眼,但别人就是写不出来. 王教授的点评可谓是"一针见血"了,这其实就是李煜词最大的特点.&q ...
这里鲜为人知，探秘苏州某地下市场我当时都疯了！

这里鲜为人知，探秘苏州某地下市场我当时都疯了！
无人超越的天籁之音，迈克尔杰克逊《Earth Song》，每次都能听哭

无人超越的天籁之音，迈克尔杰克逊《Earth Song》，每次都能听哭
小米MIUI鲜为人知的8个实用技巧，每一个都相见恨晚

除了苹果.华为手机之外,小米手机应该是用的人比较多了. 使用小米手机的人这么多,不仅仅是因为小米手机超高的性价比,还有小米手机里隐藏得很好用的技巧,这里就来分享8个. 1.硬件自检手机上出现一些故障 ...
八十多年后，他的人物一个个都复活了，而他终于渐行渐远了

八十多年后，他的人物一个个都复活了，而他终于渐行渐远了
退伍前八块腹肌是标配，退伍十年后再相聚，老兵：见面都不敢认了

在中国有两个迅速可以完成身体体态重塑的方法:一个是坚持每天健身,另一个就是当兵.很多年轻的热血男儿去当兵是为了报效祖国,当然也有些是为了摆脱迷茫的状态.摆脱颓废的生活状态,建立新的信念,锤炼自己的意志 ...
95岁的老兵，离家73年后回老家，发现祖坟和祖宅都消失不见了

战争给人们带来了流离失所的生活,百姓苦不堪言,过着食不果腹的日子.14年的抗日战争,给中国带来了巨大的灾难.当时的国家内忧外患,国内战争和国外战争同时发生,后来意识到了日本侵略中国的危害性之后才开始一 ...
40岁扔下北京公司进山，5年后，很多身价不菲的老板都成了他的粉丝！

在中国,找一个好器物,难么? 瓷器有瓷都,陶器有陶都:有蜡染之乡.刺绣之地.夏布之乡:也还有竹编之乡.木雕之乡等等.中国有传统工艺,有传承地标城市,不缺乏传统手工底蕴. 但当我们去了当地,想买个好物件 ...
新华多倍保（超越版），重疾最多赔7次，优缺点都不少

大家好,我是喵叔. 几家传统的"大保险公司"里面,新华其实算比较有特色的公司,它家早在2016年就推出了多次赔付的重疾产品,相比其他公司算走在前列的,当然,他家某些代理人一年把产品 ...

超越ReLU却鲜为人知，3年后被挖掘：BERT、GPT-2等都在用的激活函数

相关推荐