Facebook开源M2M-100模型: 轻松翻译上百种语言

From: Venture Beat;编译:Shelly

不管是在翻译圈,还是在日常生活中,“机器翻译”已经成了越来越常见的字眼。那么,现如今的机器翻译已经发展到了什么水平?除了通用语种互译,机器翻译究竟能实现多少种语言的互译?它的上限在哪里?

一起来看看Facebook新推出的M2M-100多语种机翻模型吧!本文将告诉你M2M-100模型的优势、原理、现存的局限性,Facebook科研人员为此所作的努力,以及有关该模型的客观的评价。

Facebook于10月19日开放了M2M-100模型的源代码 (Github),并声称这是首个不以英语为中介就能实现100多对语言互译的算法。M2M-100机器学习模型经过了2000多对语言翻译的训练,在机翻常用评估标准下,其翻译质量明显优于其他以英语为中介的模型。

多语种机翻的终极目标就是研发出一款可以任意翻译全世界7000多种语言的模型。多语种机翻可以实现相似语言的信息共享,在低资源语对、零数据翻译等领域具有显著优势。

另辟蹊径的训练数据集:

包含100种语言的75亿个句子

模型尺寸越大,要建立起相应的数据集也就越繁琐、越困难。因此,一些科研人员以英语数据集为中介,并依赖特定技术实现其他语种的互译。比如说,要实现100种语言互译,就需要包含1000亿个句对的数据集。

但是通过这种方法建立的模型存在局限性:由于无法体现人们的翻译使用习惯,它在非英语互译中的表现往往不尽如人意。

相比之下,Facebook的M2M-100模型另辟蹊径,它在包含了100种语言的75亿个句子的数据集中进行训练。

为了构建该模型,在语言的选取上,Facebook的科研人员主要确定了三条标准:

  • 首先,他们选取分布在不同地域、隶属于不同语系且被广泛使用的语言;

  • 然后,他们进一步缩小选择范围,只保留了那些有测评数据库的语言,以便评估翻译质量;

  • 最后,他们舍去了那些没有可用单语数据库的语言。

M2M-100的基础是XLM-R模型。XLM-R模型是Facebook研发的一款多语种模型,它可以学习单语数据库,并能用100种语言完成任务。

今年7月,Facebook发布了一款支持50余种语言的语音识别模型。就在不久前,Facebook又公布了CRISS模型的详细信息,它可以从众多语言中挖掘未标记的数据,进而跨语言挖掘句子,训练出高级模型。

拓展互译语种的创意:

全新语言识别技术、“桥梁挖掘”策略

与反向翻译

安吉拉·法恩(Angela Fan)是Facebook巴黎AI研究中心的一位数据科学家,他在博客里写道:“多年来,AI研究人员一直致力于研发出统一通用的模型,它能在不同的任务中理解所有语言,包括各种方言。这样的模型将能够为更多的人提供优质服务,保持翻译最新,并且为数十亿人带来全新体验。”

在M2M-100模型中,Facebook的科研人员采取了全新的语言识别技术,从不同来源中挖掘质量更高的数据。其中一种技术名为“语言不可知句表示法”(LASER),这是一个开源工具包,可以对自然语言处理模型进行零数据传输。另外还有两种技术,分别是CCMatrixCCAligned。CCMatrix是用以训练翻译模型的、“十亿规模”的双语数据库;CCAligned是一个大型的跨语言网页文档对合集。

Facebook科研人员避免使用那些很少进行互译的语对,比如冰岛语与尼泊尔语、僧伽罗语与爪哇语,并且采取“桥梁挖掘” (bridge mining) 策略,基于分类、地理位置和文化相似性将世界语言分为14个语族。同一语族的国家中,人们的交流会更加频繁,对翻译的要求也更高。比如说,一个印度家庭可能会使用同族的多种语言,如孟加拉语、印度语、马拉地语、尼泊尔语、泰米尔语和乌尔都语。

为了联系不同语族的语言,Facebook科研人员找出每个语族里最重要的一到三种语言,将它们确定为“桥梁语言”。例如,印度语、孟加拉语和泰米尔语就被确定为印度-雅利安语族中的桥梁语言。然后,他们从这些桥梁语言的可能组合中挖掘训练数据,得到了前文提到的75 亿个句子。

对于低资源语种,Facebook采用反向翻译的方法对数据集进行补充。反向翻译方法是指在训练已有单语模型的基础上,将其翻译为另一语种的对称反向翻译数据库。在M2M-100模型的开发过程中,Facebook为已挖掘的语言添加了合成数据,为先前未出现过的语对创建了新数据。

M2M-100模型使用的开源框架是Fairscale,用于训练大型模型。训练过程中,该模型被分割为数百个源数据相同的显示卡,因此,每个显示卡训练的是一部分模型,而非一部分数据。

为了确保M2M-100模型的性能发挥不受影响,Facebook科研人员将其参数分为互不重叠的语族。这些策略的组合使M2M-100模型的性能提升了100倍,并使其能够提供更准确的语言翻译。

Facebook称,在参数值为154亿时,M2M-100模型的高资源语对翻译质量提升显著,毕竟高资源语言在模型训练上有着最多的资源。

正如安吉拉所写:“我们将模型规模与特定语言参数结合起来,也就是把大型模型的优势和学习特定语言的能力结合起来。”

局限与提升空间:

低资源语对与偏见观点的困境

M2M-100模型的翻译质量由母语人士来进行评估,且不包括英语母语者这些评估人士对翻译成品的忠实度打分较高,但是也指出该模型在俚语翻译方面不尽如人意。此外,M2M-100模型还会出一些语法错误,包括逗号缺失,这些可能会导致读者误解原文。

Facebook科研人员在一篇论文中承认了该模型目前的不足:“要达到令人满意的翻译质量,M2M-100模型还有很大的提升空间。对于一些不常见的语种,包括非洲的科萨语、祖鲁语,欧洲的加泰罗尼亚语、布列塔尼语,亚洲的伊洛干诺语、宿雾语等等,这些语言在互联网上的语料都十分稀缺,导致训练数据数量和质量的不足。”

事实上,大量实例已经表明,语言模型会放大其训练所用数据库里的偏见观点,导致一些不良后果。麻省理工、英特尔以及加拿大高等研究院的AI研究人员发现很多现有翻译模型的译文里都包含着大量偏见。

艾伦AI研究所的科研人员指出,现有的机器学习技术都没办法避免这一缺陷,人们急需更好的训练模式和模型建构。除此之外,谷歌也发现其机器翻译模型会产生性别偏见(尽管他们声称这一问题已经解决了),特别是那些低资源语种,比如土耳其语、芬兰语、波斯语和匈牙利语等等。

针对这一问题,M2M-100模型是怎样应对的呢?安吉拉说道:“模型目前仍处于测试阶段,在这个研究阶段,我们想测试模型的局限性。对于那些错误、有害的译文,我们尝试过使用侮辱性语言过滤器,但是至少现在看来效果并不好……我们现在仍然处于试验阶段,这也是该模型还没有正式投入使用的原因。”

安吉拉还强调,在当前阶段,虽然研究团队还没有采取特别措施来应对性别歧视语言,但它在探究M2M-100模型的常见错误类型。她说:“我们不仅要关注机器翻译辅助评估工具 (BLEU) 打出的分数,更要听取母语者的评价。根据模型的当前表现,综合而言,M2M-100模型在大部分语种翻译中都表现优异,但是在部分低资源语种的翻译上仍有提升空间,比如沃洛夫语、马拉地语。”

re:

https://venturebeat.com/2020/10/19/facebooks-open-source-m2m-100-model-can-translate-between-100-different-languages/

扫码观看!

本周上新!

 征稿啦!

想让你的工作获得更多关注?

想与更多大佬进行学术交流?

(0)

相关推荐