Paper之ACL&EMNLP:2009年~2019年ACL计算语言学协会年会&EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读
Paper之ACL&EMNLP:2009年~2019年ACL计算语言学协会年会&EMNLP自然语言处理会的经验方法会议历年最佳论文简介及其解读
相关文章
NLP:自然语言处理技术的简介、发展历史、案例应用之详细攻略
Paper之ACL&EMNLP:2009年~2019年ACL计算语言学协会年会&EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读
ACL计算语言学协会年会&EMNLP自然语言处理会的简介
ACL
ACL即Annual Meeting of the Association for Computational Linguistics。ACL是计算语言学领域的第一次会议,涉及自然语言计算方法的广泛研究领域。计算语言学协会(ACL)是主要的国际科学和专业协会,为从事涉及人类语言的计算问题的人们服务,该领域通常被称为计算语言学或自然语言处理(NLP)。该协会成立于1962年,最初名为机器翻译和计算语言学协会(AMTCL), 1968年成为ACL。ACL的活动包括每年夏天举行年会和赞助由麻省理工学院出版社出版的《计算语言学》杂志;该会议和杂志是该领域的主要出版物。ACL是自然语言处理与计算语言学领域最高级别的学术会议,由计算语言学协会主办,每年一届。
官网:https://www.aclweb.org/
会议主题:信息提取、信息检索和问答系统;语言和视觉;语言理论和心 理语言学;机器学习;机器翻译和多语言;分割、标记和语法 分析;语义学;情感分析和观点挖掘;社交媒体和计算社交科 学;口语处理;概述、生成、论述和对话;文本挖掘和自然语言分析。
EMNLP
EMNLP即Conference on Empirical Methods in Natural Language Processing。会议是国际学术组织主办和发起的系列国际学术会议。EMNLP 自然语言处理实证方法会议(Conferenceon Empirical Methods in Natural Language Processing)由ACL当中对语言数据和经验方法有特殊兴趣的团体主办,始于1996年。EMNLP是由国际计算语言学协会下属特殊兴趣小组SIGDAT发起并组织的系列会议,是自然语言处理领域顶级的国际学术会议之一。创立之初旨在关注统计机器学习方法在自然语言处理领域的应用,近几年随着基于大规模数据的机器学习方法(尤其是深度学习)的发展,使该会议迅速发展,会议人数逐年增加。
官网:https://www.emnlp-ijcnlp2019.org/
历年经典论文
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: 语言理解的深层双向转换器的预训练
论文作者 | Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova |
论文出处 | In Proceedings of the 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics https://arxiv.org/abs/1810.04805 |
论文摘要 | 我们引入了一种新的语言表示模型,称为BERT,它代表变压器的双向编码器表示。不同于最近的语言表示模型(Peters et al., 2018a;(Radford et al., 2018), BERT的设计是通过在所有层中对左、右上下文进行联合条件作用,来预先训练来自未标记文本的深层双向表示。因此,只需一个额外的输出层,就可以对预先训练的BERT模型进行优化,从而为各种任务(如回答问题和语言推断)创建最先进的模型,而无需对特定于任务的体系结构进行大量修改。伯特概念简单,经验丰富。它获得新的先进的结果十一自然语言处理任务,包括推动胶分数80.5%(7.7%点绝对改进),MultiNLI精度86.7%绝对改善(4.6%),球队v1.1问答测试F1 93.2(1.5点绝对改进)和阵容v2.0测试F1到83.1(5.1点绝对改善)。 |
研究问题 | 文章介绍一种新的语言表示模型BERT(Bidirectional Encoder Representations from Transformers),通过联合上下文信息从未标记文本中预训练深层双向表示形式,只需一个额外的输出层,就可以对预训练模型进行调整,在不需要对特定任务的体系结构进行大量修改的前提下,在多种语言相关任务上获得。 |
研究方法 |
模型包含预训练和微调两个步骤:在预训练阶段,对不同训练任务的未标记数据进行训练。在微调阶段,首先用预训练参数初始化BERT模型,然后,使用来自下游任务的标记数据对预训练的参数进行微调。 |
研究结果 |
模型微调测试了11个自然语言处理任务上的效果,包括General Language Understanding Evaluation(GLUE)基准测试集中的8项评测、SQuAD 1.1和SQuAD 2.0两个阅读理解数据集和Situations With Adversarial Generations (SWAG)数据集。BERT均稳定优于基线方法,下表展示了GLUE上的对比结果。 文章提出的BERT模型在11项自然语言处理任务上取得了最先进的效果。由语言模型转移学习带来的模型效果改进表明,丰富的、无监督的预训练是许多语言理解系统的组成部分。特别地,即使是资源匮乏的任务也可以从深层的单向架构中获益。文章主要贡献是进一步将这些发现推广到深层的双向架构,允许相同的预训练模型成功地应用于广泛的NLP任务。 |
Semi-Supervised Learning for Neural Machine Translation
神经机器翻译的半监督学习机制
论文作者 | Yong Cheng, Wei Xu, Zhongjun He, Wei He, Hua Wu, Maosong Sun and Yang Liu |
论文出处 |
Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics https://link.springer.com/chapter/10.1007/978-981-32-9748-7_3 |
论文摘要 | 近年来,端到端神经机器翻译(NMT)取得了显著的进展,但NMT系统仅依赖于并行语料库进行参数估计。由于平行语料库在数量、质量、覆盖等方面都存在一定的局限性,尤其是对于资源贫乏的语言而言,利用单语语料库来提高网络语言机器翻译的研究越来越受到人们的关注。我们提出了一种半监督的方法来训练NMT模型连接标记(平行语料库)和未标记(单语语料库)的数据。其核心思想是使用自动编码器重建单语语料库,其中源-目标和目标-源转换模型分别充当编码器和解码器。我们的方法不仅可以利用目标语言的单语语料库,而且可以利用源语言的单语语料库。在汉英数据集上的实验表明,我们的方法比最先进的SMT和NMT系统取得了显著的改进。 |
研究问题 | 近年来,端到端神经机器翻译(neural machine translation, NMT)取得了显著的进展,但NMT系统仅依靠并行语料库进行参数估计。由于平行语料库在数量、质量和覆盖范围等方面都存在一定的局限性,尤其是对资源相对较少的语言而言。所以利用单语语料库来提高网络机器翻译的性能就变得很有吸引力了。文章就提出了一种半监督的方法来训练NMT模型。其核心思想是使用一个自编码器重建单语语料库,其中源-目标和目标-源转换模型分别充当编码器和解码器。该方法不仅可以利用目标语的单语语料库,而且还可以利用源语的单语语料库。 |
研究方法 |
首先,将观察到的目标句编码为潜在的源句(图中蓝色箭头的过程)。然后,使用源到源的翻译模型,对源句进行译码(图中黄色箭头的过程),利用源到目标的模型重构所观察到的目标句。 |
研究结果 |
用文章的方法和最先进的SMT和NMT方法进行比较,实验结果图如下: 文章提出了一种训练神经机器翻译模型的半监督方法。其核心思想是在单语语料库上引入自动编码器,采用源对目标和目标对源的翻译模型作为编码器和译码器。在汉英NIST数据集上的实验表明,与最先进的SMT和NMT方法进行,该方法带来了显著的改善。 |
Know What You Don’t Know: Unanswerable Questions for SquAD
知道你所不知道的:针对SquAD中不可回答的问题
论文作者 | Pranav Rajpurkar, Robin Jia, Percy Liang |
论文出处 |
Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. 2018 https://arxiv.org/abs/1806.03822 |
论文摘要 | 摘要阅读理解系统通常可以在上下文文档中找到问题的正确答案,但是对于没有在上下文中说明正确答案的问题,它们也往往会做出不可靠的猜测。现有的数据集要么只关注可回答的问题,要么使用易于识别的自动生成的不可回答的问题。为了解决这些问题,我们介绍了斯坦福大学问答数据集(SQuAD)的最新版本——SQuAD 2.0。SQuAD 2.0整合了现有的数据和超过5万个由众包工人写的无法回答的问题,使之看起来与可以回答的问题相似。要想在班长2.0中表现出色,系统不仅要尽可能地回答问题,还要确定什么时候段落中不支持回答,并且避免回答。对于现有的模型来说,SQuAD 2.0是一项具有挑战性的自然语言理解任务:一个强大的神经系统,在SQuAD 1.1上得到86%的F1,在SQuAD 2.0上却只能得到66%的F1。 |
研究问题 | 阅读理解系统(模型)通常可以在上下文文档中找到问题的正确答案,但对于没有在上下文中说明正确答案的问题,它们给出的答案也不那么可靠。现有的数据集要么只关注可回答的问题,要么使用容易识别的自动生成的不可回答的问题作为数据集。为了弥补这些不足,文章介绍了斯坦福问答数据集(SQuAD)的最新版本——SQuAD 2.0,它整合了现有的SQuAD中可回答的问题和50000多个由大众工作者编写的难以回答的问题,其中那些难以回答的问题与可回答的问题题目设置相似。为了在SQuAD 2.0中表现的更好,系统不仅要在可能的情况下回答问题,还要确定什么时候段落的上下文不支持回答,并且避免回答问题。SQuAD 2.0数据集是自然语言理解任务中对现有模型的一个挑战。 |
研究方法 | 数据集:在Daemo平台上雇佣了众包工作人员来编写无法回答的问题。每个任务由来自SQuAD 1.1的一整篇文章组成。对于文章中的每个段落,工作人员最多可提出5个仅凭段落是无法回答的问题,同时还要参考段落中出现的实体并给出一个合理的答案。同时给工作人员展示SQuAD 1.1中的问题作为参考,尽量使难以回答的那些问题与可回答的问题相似。 |
研究结果 |
文章评估了三种现有的模型架构在两个数据集上的表现,让这些模型不仅去学习答案的分布,而且也去预测一个问题是不可回答问题的概率。当模型预测某个问题无法回答的概率超过某个阈值时,模型就放弃学习答案分布。下表展示了三个模型在两个数据集(SQuAD 1.1和SQuAD 2.0)上的表现,结果显示: 表现最好的模型(DocQA + ELMo)在SQuAD 2.0上与人类仍有23.2的差距,意味着模型有很大的改进空间; 文章在SQuAD 1.1数据集上利用TFIDF和规则随机生成了一些难以回答的问题,仍采用相同的模型进行对比。结果显示(如下表)最好的模型还是在SQuAD 2.0数据集上表现最低,再次证明了SQuAD 2.0对现有的语言理解模型来说是一个有难度的挑战。 文章证明了SQuAD 2.0是一个具有挑战性的、多样化的、大规模的数据集,它迫使模型去学习什么情况下一个问题在给定的环境中是无法回答的。我们有理由相信,SQuAD 2.0将会促进新的阅读理解模型的发展,这些模型能够知道他们不知道的东西是什么,从而能在更深层次上理解语言文字。 |
GLUE: A MULTI-TASK BENCHMARK AND ANALYSIS PLATFORM FOR NATURAL LANGUAGE UNDERSTANDING
GLUE: 一个用于自然语言理解的多任务基准测试和分析平台
论文作者 | Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill,Omer Levy& Samuel R. Bowman |
论文出处 |
Proceedings of the International Conference on Learning Representations (ICLR). 2019 https://arxiv.org/abs/1804.07461 |
论文摘要 | 要使自然语言理解(NLU)技术在实践和作为科学研究对象方面发挥最大的作用,它必须是通用的:它必须能够以一种不专门针对任何特定任务或数据集的方式处理语言。为了实现这一目标,我们引入了通用语言理解评估基准(GLUE),这是一个工具,用于评估和分析模型在现有NLU任务的不同范围内的性能。GLUE与模型无关,但它鼓励在任务之间共享知识,因为某些任务的训练数据非常有限。我们还提供了一个手工制作的诊断测试套件,可以对NLU模型进行详细的语言分析。我们评估了基于当前多任务和转移学习方法的基线,发现它们并不能立即在每个任务单独的模型训练的总体性能上有实质性的改进,这表明在开发通用的和鲁棒的NLU系统方面还有改进的空间。 |
研究问题 | 人类理解语言的能力是灵活的、强健的。相比之下,单词级以上的大多数自然语言理解(Natural Language Understanding, NLU)模型都是为特定的任务设计的。我们期望开发一个能够学习在不同领域执行一系列不同语言任务的更统一的模型,它必须能够以一种不局限于单个任务、类型或数据集的方式来理解人类的语言。为了实现这一目标,文章设计了一个通用语言理解评估基准(General Language Understanding Evaluation, GLUE)用于评估模型在不同的现有NLU任务集上的性能。 |
研究方法 |
文章设计了一个通用语言理解评估基准(General Language Understanding Evaluation, GLUE),它包含一组NLU任务,包括问答系统、情感分析和文本蕴涵,以及一个用于模型评估、比较和分析的在线平台。GLUE倾向于让模型在任务之间共享一般的语言知识。GLUE还提供了一个人工设计的测试集(诊断集),可以对模型进行详细的分析。 为了评测这个GLUE评估基准,文章在公共数据集上评估了句子表示的baseline和最优模型,下表展示了数据集的任务表述和相关的统计信息。数据集的任务表述和统计信息如上表所示。 |
研究结果 |
结果显示如下表所示,针对所有任务的多任务训练比针对每个任务单独训练模型的效果更好。然而,最佳模型的低性能表明模型仍存在改进空间。 首先,文章实现了一个通用语言理解评估基准(GLUE基准),包含9个句子或句对的NLU任务。所有任务建立在带标注的数据集上,数据集覆盖了各种文本类型、不同数据规模和不同难度系数。其次,建立了一个主要基于私有评测数据的在线模型评估平台。该平台与模型无关,并且可以评估任何能够在所有9个任务上产生结果的模型。然后,文章还构建了专门的诊断评价数据集,以用作误差分析、模型的定性比较以及对抗性数据的补充。最后,文章实验了句子表示学习的几种主要现有方法的结果。 |
Linguistically-Informed Self-Attention for Semantic Role Labeling
用于语义角色标注的基于语言学信息的自我注意力方法
论文作者 | Emma Strubell, Patrick Verga, Daniel Andor, David Weissand Andrew McCallum |
论文出处 |
Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing |
论文摘要 | 目前最先进的语义角色标注(SRL)使用深度神经网络,没有明确的语言特征。然而,之前的工作已经表明,黄金语法树可以显著提高SRL解码,这表明通过显式语法建模提高准确性的可能性。在这项工作中,我们提出了基于语言信息的自我注意(LISA):一个神经网络模型,它将多头自我注意与跨依赖分析、词性标注、谓词检测和SRL的多任务学习相结合。与之前需要进行大量预处理来准备语言特性的模型不同,LISA可以仅使用原始标记作为输入来合并语法,仅对序列进行一次编码,以便同时对所有谓词执行解析、谓词检测和角色标记。语法是通过训练一个注意头来关注每个标记的语法父级来合并的。此外,如果已经有了高质量的语法解析,那么可以在测试时对其进行有益的注入,而无需对SRL模型进行重新培训。在CoNLL-2005 SRL上的实验中,LISA使用预测谓词和标准word embeddings为模型实现了新的最先进的性能,在newswire上获得了比以前的最先进水平高2.5 F1的绝对水平,在域外数据上达到了超过3.5 F1的水平,误差减少了近10%。在ConLL-2012英文SRL中,我们也显示出超过2.5 F1的改进。通过上下文编码(ELMo)的单词表示形式,LISA的性能也超过了最先进的技术,在news上超过了1.0 F1,在out- domain文本上超过了2.0 F1。 |
研究问题 | 语义角色标注(Semantic Role Labeling, SRL)是一种提取文本高级表示的技术。目前最先进的基于深度神经网络的语义角色标注模型并没有显式使用文本的语言特征。然而,有研究已经指出,语法树可以有效改善SRL任务。鉴于此,文章提出了一种用于语义角色标注的基于语言学的自注意力方法(linguistically-informed self-attention,LISA)。该模型将多头自注意力机制(multi-head self-attention)与多任务学习相结合,包括句法依赖解析、词性标注、谓词检测和语义角色标记。与先前需要大量预处理来准备语言特征的模型不同,LISA可以仅使用原始的token对序列进行一次编码,来同时执行多个预测任务。 |
研究方法 |
文章设计了一个高效的利用语言信息有效执行端到端语义角色标注任务的神经网络模型。该模型融合了神经网络的注意力机制预测句法依赖关系,并在4个相关任务上进行了多任务学习。下图(左)是模型结构:词向量输入到具有多头注意力机制的J层,在p层训练自注意力机制去关注父节点的语义信息。P层的详细操作见下图(右)。 具体地,模型的基础是一个多头自注意力机制的token编码,基于ELMo预训练得到的token表示结合一个由正弦函数确定的位置编码向量学习H个注意头,拼接后组成每个token的最终自注意力表示。句法信息的自注意力机制将注意力中的key、value和query均增加语义解析信息,其中key、value分别对应父节点和依赖关系。最后,共享模型中较低层的参数来预测POS词性标记和谓词。 |
研究结果 |
文章把LISA模型和四个先进的基线方法比较,下表的结果显示,未加入语义信息的模型已经实现了现有的最优模型性能(如红框所示),当LISA加入自己的语义解析时模型性能并没有很大的提升(如绿框所示),但当再加入了目前最优的D&M语义解析以后,模型性能有了较大的提升。Gold表示加入了最优的语义解析,以期模型能有更好的表现。 文章提出了一种多任务神经网络模型,该模型有效地融合了丰富的语言信息用于语义角色标注。通过一系列实验证明了LISA的性能优于最先进的现有模型。具体实验结果:在CoNLL-2005SRL数据集上,LISA模型在谓词预测、词嵌入任务上比当前最好的算法在F1值上高出了2.5(新闻专线数据)和3.5以上(其他领域数据),减少了约10%的错误。在ConLL-2012英文角色标记任务上,该方法也获得了2.5F1值的提升。LISA同时也比当前最好的基于上下文的词表示学习方法(ELMo)高出了1.0的F1(新闻专线数据)和多于2.0的F1值(其他领域数据)。 |
OpenKiwi: An Open Source Framework for Quality Estimation
OpenKiwi: 一个用于质量评估的开源框架
论文作者 | Fabio Kepler、Jonay Trenous、Marcos Treviso、Miguel Vera、Andre F. T. Martins |
论文出处 |
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019 https://arxiv.org/abs/1902.08646 |
论文摘要 | 我们将介绍OpenKiwi,这是一个基于pytor的用于翻译质量评估的开源框架。OpenKiwi支持单词级和句子级质量评估系统的培训和测试,实施WMT 2015-18质量评估运动的获奖系统。我们对来自2018年WMT(英德SMT和NMT)的两个数据集上的OpenKiwi进行基准测试,在单词级任务上获得最先进的性能,在句子级任务上接近最先进的性能。 |
研究问题 | 文章介绍了一个基于PyTorch的用于翻译质量评估的开源框架——OpenKiwi。该框架支持单词级和句子级的质量评估系统的训练和测试,实现和集成了WMT 2015-18质量评估比赛的获奖系统。文章在WMT2018的两个数据集(English-German SMT and NMT))上对OpenKiwi进行基准测试。实验结果证明了,该框架在单词级任务上实现了最先进的性能,在句子级任务上实现了几乎最先进的性能。 |
研究方法 |
质量评估(Quality Estimation,QE)提供了机器翻译和人工翻译之间缺失的一环,目标是在没有参考译文的情况下评估翻译系统的质量。句子级的质量评估旨在预测整个翻译句子的质量,如基于人后期编辑所花费的时间,或者修改它需要的编辑操作数。单词级别质量评估的目标是给机器翻译的每个词、单词之间的间隙(根据上下文需要插入的)和源语言单词(原句中被错译或省略的单词)分配质量标签。下图是一个单词级标注示例。 文章研发的OpenKiwi(https://github. com/Unbabel/OpenKiwi)实现和集成了WMT 2015-18质量评估比赛的获奖系统,且允许轻松地添加和运行新模型,而不需要过多地关注输入数据处理、输出生成和评估。OpenKiwi基于PyTorch深度学习框架实现,可以单独运行或通过API集成到其他项目。此外,OpenKiwi提供了根据WMT2018数据的预训练模型,并支持根据新数据训练新QE模型。 文章对该框架进行了基准测试,使用了WMT 2018质量评估比赛的数据集,结果显示,这些系统的集成版本表现最好,堆叠的架构在预测单词级标签方面非常有效。文章还比较了另一个现有的开源工具deepQuest,在单词级和句子级均获得更优的表现。 |
研究结果 | 文章介绍了一个新的机器翻译质量评估(QE)开源框架—OpenKiwi。OpenKiwi是在PyTorch中实现的,并支持在新数据上训练单词级和句子级的QE系统。它在单词级和句子级上都优于其他开源工具包,并产生了新的最先进的单词级QE结果。OpenKiwi一经发布就作为WMT 2019 QE的基线系统。此外,所有WMT 2019 QE的单词、句子和文档级任务的获奖系统都使用OpenKiwi作为其构建基础。 |
Bridging the Gap between Training and Inference for Neural Machine Translation
架起一座在基于神经元的机器翻译训练和推理之间的桥梁
论文作者 | Wen Zhang, Yang Feng, Fandong Meng, Di You, Qun Liu |
论文出处 |
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.(2019). https://arxiv.org/abs/1906.02448 |
论文摘要 | 神经机器翻译(NMT)以根据上下文词预测下一个词的方式顺序生成目标词。在训练时,它以地面真值词作为上下文进行预测,而在推理时,它必须从头开始生成整个序列。美联储背景的这种差异导致了错误的累积。此外,单词级训练要求生成的序列与地面真值序列严格匹配,从而导致对不同但合理的翻译进行过度校正。本文针对这一问题,不仅从地面真值序列中提取上下文词,而且在训练过程中通过模型从预测序列中提取上下文词,其中预测序列被选择为句子级最优。在中文->英文和WMT'14英文->德文翻译任务上的实验结果表明,我们的方法可以在多个数据集上取得显著的改进。 |
研究问题 | 神经机器翻译(Neural Machine Translation, NMT)是根据上下文预测下一个词,从而依次生成目标词。训练时用真值词作为上下文进行预测,而推理时必须从头开始生成整个序列,这会导致误差的积累。此外,单词级训练要求生成的序列与真值序列严格匹配会导致对不同但合理的翻译的过度矫正。针对这一问题,文章提出了一种过矫正恢复的方法。该方法不仅从真值序列中提取上下文,而且通过训练模型从预测序列中提取上下文,即翻译过程中模型不需要再逐词对比标准来确定损失函数。在中文→英文和英语→德语的翻译任务的实验结果表明,该方法可以在多个数据集上实现显著的改进。 |
研究方法 | 模型主要结构如上图所示,核心思想是:不仅使用真值序列进行约束,在训练过程中,也利用训练模型预测出的上一个词语作为其中的备选词语来约束模型。对于oracle词的选择有两种方法,一种是用贪心搜索算法在词级上选择,另一种是在句级上选择最优的oracle序列。 在词语级的选择上,在时间步为j时,获取j-1时间步模型预测出的每个词语的预测分数。为了提高模型的鲁棒性,在预测分数的基础上加上Gumbel noise,取分数最高的词语作为此时的 Oracle Word。 在句子级的选择上,使用集束搜索,选择集束宽为 k 的句子,然后计算每个句子的BLEU分数,选择分数最高的句子。对于生成的实际句子超出或短于这一长度的情况,文章采用强制解码的方式进行干预。 最终选择的Oracle Word也会和真值序列的词语混合,然后使用衰减式采样(Decay Sampling)的方法从中挑选出作为约束模型训练的词。 文章对NIST中文→英文(Zh→En)和WMT14英语→德语(En→De)的翻译任务进行了实验。结果表明,文章提出的方法可以在多个数据集上实现提升。同时在RNNsearch模型和Transformer模型上也验证了该方法。结果表明,新方法可以显著提高两种模型的性能。 |
研究结果 | 端到端的NMT模型在训练时逐字逐句地生成翻译,将真实单词作为上下文,而不是将模型生成的前一个单词作为上下文进行推理。为了减少训练和推理之间的差异,在预测一个单词时,文章使用抽样方法将真实单词或先前预测的单词作为上下文输入。被预测的单词(称为oracle单词)可以通过单词级或句子级优化生成。与词级oracle相比,句子级oracle进一步赋予了该模型过度矫正恢复的能力。通过两个基线模型和实际翻译任务的相关工作验证了该方法的有效性,并对所有数据集进行了显著的改进。文章还指出,句子级的oracle优于单词级别的oracle。 |
Do you know that Florence is packed with visitors?Evaluating state-of-the-art models of speaker commitment
你知道佛罗伦萨到处都是游客吗?评估说话者结论确定性的最新模型
论文作者 |
Nanjiang Jiang, Marie-Catherine de Marneffe |
论文出处 |
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. https://www.aclweb.org/anthology/P19-1412/ |
论文摘要 | 当演讲者玛丽问道:“你知道佛罗伦萨挤满了游客吗?”,我们会让她相信佛罗伦萨到处都是游客,但如果她问:“你认为佛罗伦萨到处都是游客吗?”推断说话人的承诺(又称事件真实性)对于信息提取和问题回答是至关重要的。在这里,我们通过分析一个具有挑战性的自然数据集上模型错误的语言相关性,来探索语言缺陷驱动现有说话人承诺模型错误模式的假设。我们在承诺库(CommitmentBank)上评估了两种最先进的演讲者承诺模型,承诺库是一个自然发生的英语会话数据集。承诺库由演讲者对附加词(在我们的例子中是“Florence is packed with visitors”)的内容进行了注释,附加词是在四种取消句的环境(否定、情态、问题、条件)下嵌入动词(“know”、“think”)。根据语言特征对项目进行分类可以发现不对称的错误模式:虽然这些模型在某些类(如否定)上取得了良好的性能,但它们未能推广到自然语言中的各种语言结构(如条件句),突出了改进的方向。 |
研究问题 |
当一个演讲者问“你知道佛罗伦萨挤满了游客吗”时,我们可能会相信,但如果她问的是“你认为佛罗伦萨挤满了游客吗”,我们可能就不会相信了。推断说话者承诺(或称事件真实性)对于信息抽取和问答均至关重要。对说话者承诺的预测,是判断说话者在句子中对某一事件承诺到何种程度,是实际的、非实际的还是不确定的。本篇文章通过在数据集上分析模型误差的语言相关性,来探讨语言缺陷会导致说话者承诺模型出现错误模式的假设。 |
研究方法 |
评估数据集选取的CommitmentBank包含1200条数据,涉及四种包含时态嵌入动词的取消蕴涵环境(否定句、情态动词、疑问句、条件句)。对于每条数据,从Mechanical Turk寻找至少8个母语为英语的人标注其说话者承诺。 文章评估了两种最先进的说话者承诺模型:Stanovsky等人提出的基于规则的方法和Rudinger等人提出的神经网络方法,结果显示基于规则的模型表现得更好,但整体表现均不是很好,因为CommitmentBank与其他任何数据集相比,其相关性更低,绝对错误率更高。 |
研究结果 | 文章在CommitmentBank上评估了两种最先进的说话者承诺模型。研究发现,带有语言学知识的模型比基于LSTM的模型表现更好,这表明如果想要在这样的有挑战性的自然语言数据中捕捉说话者承诺信息的话,语言学知识是必不可少的。根据语言特征对标注数据进行分类可以发现不对称的错误模式。虽然模型在某些情况下(如否定)取得了良好的性能,但很难泛化到其他更丰富的自然语言的语言学结构(如条件句),从而指出了研究的改进方向。 |