低资源神经机器翻译MetaNMT ：来自MAML与NLP的温柔救赎

2024-05-09 19:25:05

过去十年，随着Attention模型、LSTM、记忆Memory等等方法的出现，尤其是在神经网络的加持下，机器翻译的水平取得了长足的进步。

在英法、中英这样的大语种（Rich Language）翻译任务上，机器的表现几乎可以媲美人类的水平，甚至已经开始登堂入室，承接了不少国际大会的翻译业务，让人类翻译感受到了深深的失业焦虑。

然而，神经机器翻译（NMT）的成功往往依赖于大量高质量的双语语料作为训练数据。如果是蒙古语、印度语这些小语种，无法提供足够多的双语数据，更极端的现实情况是，有些语言几乎没有任何双语预料，这种情况下NMT就无能为力了。

标注数据资源的贫乏问题，一直没有什么好的解决办法。因此，来自香港大学、纽约大学的研究人员Jiatao Gu、Yong Wang等人所提出的新神经机器翻译方法MetaNMT，论文一经发表，就凭借在低资源神经机器翻译（NMT）上的优异性能表现惊艳了学界，成为2018年最具影响力的NLP创新之一。

论文不仅被NLP领域领先的会议EMNLP收录，还拿下了Facebook的低资源神经机器翻译奖。今天，我们就来看看MetaNMT方法究竟有何过人之处？

什么是MetaNMT算法？

简单来说，MetaNMT算法就是将元学习算法（MAML），用于低资源神经机器翻译（NMT）中，将翻译问题建构为元学习问题，从而解决低资源语言语料匮乏的难题。

研究人员先使用许多高资源语言（比如英语和法语），训练出了一个表现极佳的初始参数，然后使构建一个所有语言的词汇表。再以初始参数/模型为基础，训练低资源语言的翻译（比如英语VS希伯来语，法语VS希伯来语）。在此基础上进行进一步优化初始模型，最终得到的模型就可以很好地提升小语种翻译模型的性能。

具体到实验中，研究人员使用十八种欧洲语言所训练的元学习策略，被应用在以五种小语种语言（Ro，Lv，Fi，Tr和Ko）为目标的任务中。结果证明，通过16000个翻译单词（约600个并行句子），罗马尼亚语-英语WMT'16上实现高达22.04 BLEU。

数据显示，MetaNMT训练出的系统，表现要明显优于基于多语言迁移学习。这意味着只需要一小部分的训练样例，我们就能训练出效果更好的NMT系统，很多语料库非常小的语言，机器翻译时也不会再一筹莫展或者胡言乱语了。

NLP的神助攻：元学习强在何处？

MetaNMT之所以取得如此良好的效果，核心就在于引入的MAML（Model Agnostic Meta Learning），即与模型无关的元学习方法。

简单来说，元学习就是要让智能体利用以往的知识经验“学会如何学习”（Learning to learn），然后更高效地完成新任务。

传统NLP任务中常用的迁移学习（transfer leaning）或多任务学习（Multi-Task Learning），输入端训练得到的编码器（Encoder）会直接转化为对应的向量表示序列，直指目标任务。而MetaNMT则是通过高资源语言系统的训练得到一个独立于原任务的通用策略方法，再让极低资源的语言系统根据这种学习方法，并反复地模拟训练。

过去，元学习一直被用来进行小样本学习、通用机器人等训练中，MetaNMT的提出，也是MAML第一次在NLP领域成功应用。那么，未来随着元学习的加入，NLP领域会产生哪些可能的变化呢？

首先，降低NLP任务的研究门槛。

深度增强学习需要的训练数据量规模越来越大，游戏等动态任务环境所涉及的奖励机制也日趋复杂。在StyleGAN、BERT等“巨无霸”模型的争夺下，GPU/TPU计算时长变得极其昂贵，NLP俨然快要成为土豪大公司才有资格玩的游戏了。

与之相比，通过少量样本资源就能学会新概念的元学习方法，可以只使用少量的梯度迭代步来解决新的学习任务，就显得平易近人很多。

其次，提升NLP任务的学习效率。

传统的数据集更新周期长，往往需要根据新任务进行改造和再编辑。而元学习就改变了这一现状。先让系统接触大量的任务进行训练，再从中学会完成新任务的方法，可以快速（只需少量步骤）高效（只使用几个例子）地应用于广泛的NLP任务中。

尤其是在特定领域对话系统、客服系统、多轮问答系统等任务中，在用户的使用过程中就可以收集丰富的信息，让系统在动态学习中构建越来越强大的性能。

除此之外，元学习还能帮助NLP实现个性化、智能化进阶。

特定用户可以根据已有的知识经验和认知结构与元学习系统之间建立联系，通过不同个体的动态交互与信息反馈等，元学习系统可以不断丰富和修正自身的知识网络和输出效果，最终使得构建个性化产品变得更加方便快捷，高智能交互也因此成为可能。

总而言之，Few-Shot（低资源）、Fast Adaptation（高适应性）、Reusability（重用性）等特点，使得元学习的价值前所未有地清晰起来，某种程度上也代表了NLP接下来的研究方向。

道阻且长：NLP的进化之路

既然元学习之于NLP领域意义重大，为什么直到现在才出现了一个成功案例呢？这恐怕还要从低资源型语言的研究现状说起。

前面提到，验证元学习系统性能最好的方式，就是将其放到低资源任务中，看看是否和大规模任务一样出色。但这么做有个前提，就是能够建立起对应的数据集。然而这对稀缺资源的小语种来说，也不是件容易的事。

以MetaNMT为例，就为各个语言建立了词汇表。其中的低资源型目标任务，土耳其语、拉脱维亚语、罗马尼亚语、芬兰语等等，就是通过16000个翻译单词（约600个并行句子）完成的，这已经是目前神经机器翻译的极限了。

然而全世界6000多种语言中，80%人口讲的都是主要的83种语言，剩下的有30%都处在语料资源极度匮乏的状态，而且绝大多数没有任何文字记载，有的甚至使用者不足十人。缺乏相关的数据集，往往只有少量文本可供使用，成为阻碍小语种机器翻译最大的拦路虎。即使有元学习这样的神兵利器，也没有用武之地。

而近年来，情况正在发生一些积极的变化。

一方面越来越多的人开始重视濒危语言保护问题，出现了公益化的语料收集项目和相关数据库，大大降低了小语种的研究难度。比如南非数字语言资源中心（SADiLaR），已经能够提供许多南非的语言资源；

另外，NLP研究的发展，也激发了更多的人创建并开放出极低资源语料数据集，为跨语言模型开发、低资源语言训练等提供了可能性。

比如FAIR 和纽约大学的研究者合作开发的一个自然语言推断语料库 XNLI，将 MultiNLI 的测试集和开发集扩展到 15 种语言，里面就包含了斯瓦西里语和乌尔都语等低资源语言。

目前看来，MetaNMT之所以备受褒奖，并不是因为它一出手就取得了什么炸裂至极的效果。它的价值，更多的是作为一种灵感和理念，去传达技术的本质，引领更具价值的理想化的创造。

NLP的进步，不应来自于堆砌资源和规模，不应只停留在本就饱和的领域，而是构建出真正无障碍的语言系统。让说着匮乏型语言的人们，也能够阅读非母语的新闻，或者在遇到问题时求助于可靠的专家系统。

如果技术不去往那些真正的荒芜之地，又有什么意义？

一种镜像生成式机器翻译模型：MGNMT | ICLR 2020满分论文解读

MGNMT:镜像生成式NMT (ICLR 2020满分论文) 机构: 南京大学,字节跳动链接: https://static.aminer.cn/misc/pdf/minrror.pdf 一.摘要 ...
Paper之ACL&EMNLP：2009年~2019年ACL计算语言学协会年会&EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读

Paper之ACL&EMNLP:2009年~2019年ACL计算语言学协会年会&EMNLP自然语言处理会的经验方法会议历年最佳论文简介及其解读相关文章 NLP:自然语言处理技术的简介 ...
字节跳动火山翻译负责人：预训练时代的机器翻译

2021年10月8日-10日,第十七届全国机器翻译大会 (CCMT 2021) 在西宁举行,字节跳动火山翻译团队技术和产品研发负责人王明轩以<预训练时代的机器翻译>为题,阐述预训练技术在机 ...
CMU & MILA & 谷歌 | 三家巨头发布史上最干文本增强总结

深度学习自然语言处理一个热衷于深度学习与NLP前沿技术的平台,期待在知识的殿堂与你相遇~ 154篇原创内容公众号文 | Sherry 来自 | 夕小瑶的卖萌屋一直以来,数据都是推动深度神经网络 ...
如何解决神经机器翻译三大关键性问题？清华团队发表NMT最新技术综述

如今,计算机技术渗透人们生活的方方面面,而要说对我们工作学习帮助极大的,机器翻译(machine translation)必须榜上有名. 近年来随着计算机技术的不断提高.AI 系统的日益精进,机器翻译 ...
阿里多语言翻译模型的前沿探索及技术实践

分享嘉宾:张志锐博士阿里达摩院算法专家编辑整理:曾辉出品平台:DataFunTalk 导读:本文的主题为阿里多语言翻译模型的前沿探索及技术实践,将分三个部分介绍阿里巴巴在机器翻译方面的工作:首 ...
Facebook成立人工智能语言研究联盟，致力于解决自然语言处理挑战

近日,Facebook建议在三个支领域研究自然语言处理(NLP),这是一项关于语言学.人工智能与计算机语言的相互作用的跨学科研究. 它专门寻找针对NLP的专业深度学习方法,以及计算效率高的NLP,其最 ...
火山翻译：工业级应用与研究

分享嘉宾:王明轩博士字节跳动算法科学家编辑整理:曾辉.Hoh 语音朗读:蒋志新出品平台:DataFunTalk 导读:本文的主题为火山翻译:工业级应用与研究,将从两个维度介绍字节跳动的机器翻译 ...
情商低的孩子，大多来自三类家庭，家长早了解早矫正

孩子的情商离不开父母的教育,这三类家庭教育出来的孩子,情商更低,长大更容易没出息,看看你中了吗?有的赶紧改正.
【金猿技术展】镜像生成式神经机器翻译模型——MGNMT

火山引擎技术该技术由火山引擎申报并参与"数据猿年度金猿策划活动--2020大数据产业创新技术突破榜榜单及奖项"评选. 大数据产业创新服务媒体 --聚焦数据 · 改变商业背景和动 ...
基于注意力机制的低资源关键词检索技术超越传统方法

近日,清华大学语音与音频技术实验室(THUsatlab)师生在<Neural Networks>上发表论文,提出了一种端到端的基于注意力机制和能量评分器的关键词检索系统.该系统摆脱了语音识 ...
效果更好、毒性更低的神经母细胞瘤疗法指日可待！

神经母细胞瘤是一种多发于婴幼儿的恶性肿瘤,虽然目前针对神经母细胞瘤的治疗方法进行了优化,但是高危组神经母细胞瘤仍然是难以治愈的儿童癌症之一,在美国也仅有40%至50%的患儿获得五年生存率(该数据来源美 ...
python用于NLP的seq2seq模型实例:用Keras实现神经机器翻译

原文链接:http://tecdat.cn/?p=8438 在本文中,我们将看到如何创建语言翻译模型,这也是神经机器翻译的非常著名的应用.我们将使用seq2seq通过Python的Keras库创建我们 ...
#低生育率是社会发展的必然吗# 低出生率是... 来自付鹏的财经世界

低出生率是社会发展的必然结果.如果从正面积极的角度来讲,随着社会的发展,人均收入的提高,人的价值观开始转变,开始追求更好的个人生活品质.追求自我实现,然后出生率降低. 如果从负面的角度上来讲,低出生 ...
王鸥的精致来自穿搭和发型，绿色丝绒裙很高级，低马尾颇有女人味

服装的面料对服装的质感起到决定性的作用,纯色金丝绒面料一直是中年女生专属的元素,给人大气富态的感觉.39岁的王鸥在穿绿色丝绒西装裙的时候,没有带来一丝老气,清爽色彩配上经典版型带来大气时尚的女神魅力, ...
国人佳作 | Genome Biology：CircAtlas：来自1070个脊椎动物转录组的一百万个高精度环状RNA的整合资源

编译:热血本能,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读现有的环状RNA(circRNA)数据库已成为转录组学必不可少的.但是,大多数方法都不适合挖掘候选circRNA优先级的深入信息. ...

低资源神经机器翻译MetaNMT ：来自MAML与NLP的温柔救赎

相关推荐