【技术综述】深度学习在自然语言处理中的应用发展史

本篇介绍深度学习在自然语言处理(NLP)中的应用,从词向量开始,到最新最强大的BERT等预训练模型,梗概性的介绍了深度学习近20年在NLP中的一些重大的进展。

作者&编辑 | 小Dream哥

在深度学习之前,用于解决NLP问题的机器学习方法一般都基于浅层模型(如SVM和logistic 回归),这些模型都在非常高维和稀疏的特征(one-hot encoding)上进行训练和学习,出现了维度爆炸等问题难以解决。并且基于传统机器学习的NLP系统严重依赖手动制作的特征,它们极其耗时,且通常并不完备。

而近年来,基于稠密向量表征的神经网络在多种NLP任务上得到了不错结果。这一趋势取决了词嵌入和深度学习方法的成功;并且深度学习使多级自动特征表征学习成为可能。因此,本文从词的分布式表征开始介绍深度学习在NLP中的应用。

1 分布式词表征(词向量)的实现 

通常来讲,在2003年的《A Neural Probabilistic Language Model》中Bengio等人提出了神经语言模型(NNLM),而它的副产品,词向量,可以实现词的分布式表征。该文通常被认为是深度学习在自然语言处理中应用的开始。提出伊始,由于届时计算机计算能力的限制,该网络并不能较好的得到训练。因此,这一篇成果,在当时并没有得到相当的关注。其神经网络结构如下:

2008年Collobert和Weston展示了第一个能有效利用预训练词嵌入的研究工作,他们提出的神经网络架构,构成了当前很多方法的基础。这一项研究工作还率先将词嵌入作为 NLP 任务的高效工具。

不过词嵌入真正走向NLP主流还是Mikolov 等人在 2013 年做出的研究《Distributed Representations of Words and Phrases and their Compositionality》。

Mikolov 等研究者在这篇论文中提出了连续词袋模型CBOW和 Skip-Gram 模型,通过引入负采样等可行性的措施,这两种方法都能学习高质量的词向量。CBOW模型的网络结构如下:

分布式的词表征的一大好处是实现了语义的合成性,即两个词向量相加得到的结果是语义相加的词,例如[man]+[royal]=[king]。

这种语义合成性的理论依据最近已经由Gittens et al. 在2017年给出,他们表示只有保证某些特定的假设才能满足语义合成性,例如词需要在嵌入空间中处于均匀分布。

GloVe是另外一个很有名的获得词向量的方法,在有些情况下,CBOW和Skip-Gram采用的交叉熵损失函数有劣势。因此GloVe采用了平方损失。同时,它基本上是一种基于词统计的模型,它令词向量拟合预先基于整个数据集计算得到的全局统计信息,从而学习高效的词表征。

2 NLP中特征提取方法的进化

随着词分布式表征的问题得到了有效的解决,人们开始思考如何提取词序列中高级的语义信息,然后才能将这些提取到的语义信息,应用到下游的NLP任务中,例如情感分析、问答系统、机器翻译以及自动摘要等。

最早用来对自然语言词序列进行特征提取的,其实是卷积神经网络(CNN)。这主要归因于卷积神经网络在图像领域取得的骄人成绩。

使用 CNN 进行句子建模可以追溯到Collobert和Weston在2008年的研究,他们使用多任务学习为不同的NLP任务输出多个预测,如词性标注、语块分割、命名实体标签和语义相似词等。其中查找表可以将每一个词转换为一个用户自定义维度的向量。因此通过查找表,n个词的输入序列 {s_1,s_2,... s_n } 能转换为一系列词向量 {w_s1, w_s2,... w_sn}。

在Collobert 2011年的研究中,他扩展了以前的研究,并提出了一种基于CNN的通用框架来解决大量NLP任务,这两个工作都令NLP研究者尝试在各种任务中普及 CNN架构。CNN具有从输入句子抽取n-gram特征的能力,因此它能为下游任务提供具有句子层面信息的隐藏语义表征。

因为语言序列常常具有长程性需要记忆很早时候的输入信息,CNN并不具备这种能力。这个时候,循环神经网络(RNN)网络被提出。

RNN的思路是处理序列信息。“循环”表示RNN模型对序列中的每一个实例都执行同样的任务,并且权重共享,从而使输出依赖于之前的计算和结果。

通常,RNN通过将token挨个输入到循环单元中,来生成表示序列的固定大小向量。一定程度上,RNN对之前的计算有“记忆”,并在当前的处理中使用对之前的记忆。该模板天然适合很多NLP 任务,如语言建模、机器翻译、语音识别、图像字幕生成。因此近年来,RNN在NLP任务中逐渐流行。

但是RNN容易出现梯度消失和爆炸的问题,因而其改进版本LSTM和GRU被提出来了。

LSTM比简单RNN多了“遗忘门”,其独特机制帮助该网络克服了梯度消失和梯度爆炸问题。与原版RNN不同,LSTM允许误差通过无限数量的时间步进行反向传播。它包含三个门:输入门、遗忘门和输出门,并通过结合这三个门来计算隐藏状态。另一个门控RNN变体是GRU,复杂度更小,其在大部分任务中的实验性能与LSTM类似。GRU包括两个门:重置门和更新门,并像没有记忆单元的 LSTM那样处理信息流。因此,GRU不加控制地暴露出所有的隐藏内容。由于GRU的复杂度较低,它比LSTM更加高效。

在llya Sutskever等人2014年的研究《Sequence to Sequence Learning with Neural Networks》中,作者提出了一种通用深度LSTM编码器-解码器框架,可以实现序列之间的映射。使用一个LSTM将源序列编码为定长向量,源序列可以是机器翻译任务中的源语言、问答任务中的问题或对话系统中的待回复信息。然后将该向量作为另一个 LSTM解码器的初始状态。在推断过程中,解码器逐个生成token,同时使用最后生成的token更新隐藏状态。

传统编码器-解码器框架的一个潜在问题是:有时编码器会强制编码可能与目前任务不完全相关的信息。这个问题在输入过长或信息量过大时也会出现,选择性编码是不可能的。因此,能够根据编码器编码内容动态解码内容的注意力机制(Attention)得到提出。

《Neural Machine Translation by Jointly Learning to Align and Translate》首次将注意力机制应用到机器翻译任务,尤其改进了在长序列上的性能。该论文中,关注输入隐藏状态序列的注意力信号由解码器最后的隐藏状态的多层感知机决定。通过在每个解码步中可视化输入序列的注意力信号,可以获得源语言和目标语言之间的清晰对齐。

但是RNN及其优化变种,因为都要按时序输入,都存在编码效率低下的问题。Transformer这种基于self-attention机制的强大特征提取器应运而生。《Attention Is All You Need》提出了Transformer,它完全去除了编码步中的循环和卷积,仅依赖注意力机制来捕捉输入和输出之间的全局关系。因此,整个架构更加并行化,在翻译、解析等任务上训练得到积极结果所需的时间也更少。

3 NLP中的预训练模型

训练得到的词向量表征的词语之间的信息其实有限。词向量一个难以解决的问题就是多义词的问题,例如“bank”在英文中有“河岸”和“银行”两种完全不同意思,但是在词向量中确实相同的向量来表征,这显然不合理。

2017年,为了解决这个问题,ELMO模型在“Deep contextualized word representation”被提出。

ELMO的本质思想是:用事先训练好的语言模型学好一个单词的Word Embedding,此时多义词无法区分,不过这没关系。在实际使用Word Embedding的时候,单词特定的上下文就可以知道,这个时候模型可以根据上下文单词的语义去调整单词的Word Embedding表示,这样经过调整后的Word Embedding更能表达在这个上下文中的具体含义,自然也就能克服多义词的问题。

从ELMO开始,这种先预训练,在实际应用时再fine-Tune的模式就开始流行起来了。我们再看ELMO,通过双向语言模型,能够学到较丰富的语义信息。但其用的是LSTM作为特征抽取器,在特征抽取能力上较弱。

2018年,Generative Pre-Training(GPT)采用单向语言模型,用Transformer作为特征抽取器,取得了非常不错的效果,但由于主创人员营销能力欠佳,并没有像下面这一个主角一样,在NLP领域掀起滔天巨浪。

2018年10月,谷歌推出BERT(Bidirectional Encoder Representation from Transformers)模型,刷新了几乎所有NLP任务的榜单,一时风头无两。仔细看BERT的实现,其与GPT的主要差别在于,BERT用的“双向语言模型”,它通过MASK掉预料中的部分词再重建的过程来学习预料中词语序列中的语义表示信息,同样采用Transformer作为特征抽取器。BERT的出现,因其效果太好,几乎让其他所有的NLP工作都黯然失色。

2019年2月openAI用更大的模型,规模更大质量更好的数据推出了GPT2.0,其语言生成能力令人惊叹。

目前来看,出彩的工作都是基于BERT和GPT的改进工作。在2019年6月,XLNet: Generalized Autoregressive Pretraining for Language Understanding诞生,其基于BERT和GPT等两类预训练模型来进行改进,分别吸取了两类模型的长处,获得的很好的效果。

需要注意的是,所有的预训练模型都是无监督的,这意味着,模型的数据来源是廉价而且数量巨大的。因为XLNET在训练时一直是under-fitting的,因此即使是通过增加数据量,都还能提升NLP预训练模型的效果。这无疑是振奋人心的。

总结

以上大体上介绍了深度学习在自然语言处理领域的一些标志性进展。可预见的是,现阶段是NLP最好的时代,后续一段时间内,会有更多更好的模型出现,不断刷新各个任务的"state of the art"。

NLP群推荐

(0)

相关推荐

  • (12条消息) 一文读懂BERT(原理篇)

    一文读懂BERT(原理篇) 2018年的10月11日,Google发布的论文<Pre-training of Deep Bidirectional Transformers for Langua ...

  • 动态词向量在序列标注任务中的应用与实践

    摘要:动态词向量会根据上下文动态的进行变化,相比于传统的 Word2Vec 等静态词向量,能更好的处理 NLP 任务中的 "一词多义" 的现象.本文介绍了动态词向量在序列标注任务上 ...

  • 直观比较四种NLP模型 - 神经网络,RNN,CNN,LSTM

    文/ 阿里淘系 F(x) Team - 紫矜 NLP中使用的每种模型的差异有时令人难以把握,因为它们具有相似之处,并且通常设想使用新模型来克服以前模型的缺点.因此,本文将深入探讨每种模型的本质,并了解 ...

  • 北航最新综述 | 深度学习事件抽取

    转载于 :专知 事件抽取是最新研究热点.来自北航的研究人员发布了最新关于基于深度学习的事件抽取综述论文,详细阐述了事件抽取的任务定义.范式和模型,非常值得关注! 基于模式的事件提取是及时理解事件本质内 ...

  • 2020年深度学习技术发展综述

    来源:无人系统技术 作者:王亚珅 摘要:对深度学习领域的研究进行综合评述,并对其进一步发展方向进行分析.首先分析围绕注意力机制的深度学习技术最新研究成果,以及在自然语言处理领域取得突破性进展的巨型预训 ...

  • 综述:深度学习中的池化技术

    作者丨仿佛若有光 来源丨CV技术指南 编辑丨极市平台 极市导读 本文对池化技术进行了一个总结,简述了池化的作用与原理并解答了池化在使用时常见的问题,作者还对主要的几种池化操作分类进行了介绍. > ...

  • 【时空序列】TKDE2020-时空图数据挖掘深度学习技术全面综述

    Deep learning for Spatio-Temporal Data Mining: A Survey Senzhang Wang, Nanjing University of Aeronau ...

  • 【技术综述】深度学习中的数据增强方法都有哪些?

    很多实际的项目,我们都难以有充足的数据来完成任务,要保证完美的完成任务,有两件事情需要做好:(1)寻找更多的数据.(2)充分利用已有的数据进行数据增强,今天就来说说数据增强. 作者 | 言有三 编辑 ...

  • 【技术综述】基于弱监督深度学习的图像分割方法综述

    本文是基于弱监督的深度学习的图像分割方法的综述,阐述了弱监督方法的原理以及相对于全监督方法的优势. 作者 | 孙叔桥 编辑 | 言有三 1 基础概念 生活中,我们和周围的事物都是有"标签&q ...

  • 【技术综述】图像与CNN发家简史,集齐深度学习三巨头

    言有三 毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人 作者 | 言有三 编辑 | 言有三 没有一个经典的发现会是突然之间横空出世,它总是需要一些积淀. 提起卷积神经网络,我们总会从LeN ...

  • 【技术综述】深度学习新手如何开始合适的“调参”任务

    言有三 毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人 作者 | 言有三 编辑 | 言有三 深度学习工程师被称为"炼丹工程师",自然是因为在日常工作中需要各种各样的调参 ...

  • 【技术综述】深度学习自动构图研究报告

    言有三 毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人 作者 | 言有三(微信号Longlongtogo) 编辑 | 言有三 感谢北航的云飞扬,武汉理工大学的贾承丰的辅助 今天带来基于深度 ...