陈根:32种语言可翻译,人工智能追赶翻译需求
文/陈根
利用计算机把一种自然语言转变成另一种自然语言的过程就是机器翻译。
机器翻译对于信息时代下海量信息的捕获无疑具有重要作用,事实上,人们对于机器翻译的需求也与日俱增。除了专业的出版水平的翻译,机器翻译还包括以了解信息或以交流信息为目的的机器翻译。
多语言翻译是机器翻译需要面临的一大技术现实。其中,一个理想的模型是一个统一的具备多种语言能力的模型,在遇到新的语言时,临时少量学习即可达到很流利的语言水平。
EMNLP 2020 最新的多语言翻译新范式 multilingual Random Aligned Substitution Pre-training (mRASP)就成功实现了这一理想模型:mRASP通过预训练技术再在具体语种上微调即可达到领先的翻译效果,其在 32 个语种上预训练出的统一模型在 47 个翻译测试集上取得了全面显著地提升。
不同于以往的翻译模式,mRASP树立了翻译的预训练和微调的成功路径。mRASP中的关键思想就是一种新的随机对齐子串技术,它使具有相似意义的单词和短语更接近多种语言的表现空间。研究人员预先训练了32种语言,对联合的mrap模型建立公共数据集。模型就是这样对下游语言对进行微调以获得专门的机器翻译模型。
研究人员在不同环境下对42个翻译方向进行了广泛的实验,包括跨文化的异国语言等。实验结果表明,与传统的mRASP相比,mRASP对训练目标具有显著的性能改进。这也是其第一次验证多个低资源语言对可以用来证明丰富的资源机器翻译,甚至可以提高关于训练前语料库中从未出现过的外来语的翻译质量。
mRASP 主要针对机器翻译任务而设计,它有三个应用优势:
一是打破了资源场景的限制,不论平行双语资源高低都能有所提升。在资源丰富的语言,比如标准英法翻译任务上已经有 4000 万平行语句训练情况下,使用 mRASP 依然能获得显著提升,达到了 44.3 的 BLEU 值。
二是打破了语种数量的限制。任何语言的翻译,无论是孟加拉语到古吉拉特语还是印地语到菲利宾语,只要是地球上的语言,mRASP 都可以直接拿来微调,并且效果可期。
三是资源消耗低。相比于上百张卡的“军备竞赛”预训练玩法,mRASP 更平民,仅需要 8 卡训练一周就可以得到。
随着计算机运算能力的提升和多语言信息资源的爆发式增长,机器翻译技术日益精进,未来还将为普通用户提供更加实时便捷的翻译服务。