论文标题:AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization(多粒度分词的预训练语言模型AMBERT)作者:Xinsong Zhang, Hang Li机构:字节跳动论文地址:https://www.aminer.cn/pub/5f48cdef91e011096f956039摘要 以BERT为代表的预训练语言模型在自然语言理解(NLU)中的霸主地位毋庸置疑。这些模型中的token通常是细粒度的,对于英文,token是单词或子词;对于中文这类语言,token则是单个汉字。在英语中也存在多个单词组成的自然词汇单元,例如New York,因此使用粗粒度的tokenization也是合理的。事实上,细粒度和粗粒度tokenization对于预训练语言模型的学习各有利弊。据此,字节跳动提出联合使用细粒度和粗粒度的预训练语言模型:AMBERT。对于英文,将tokenization之后得到的细粒度(一串的单词)信息和粗粒度(一串的短语)信息输入到AMBERT,细粒度和粗粒度分别使用一个encoder,这2个encoder仅仅是嵌入层参数不同,其他参数共享,从而获取词级别的上下文表征和短语级别的上下文表征。在中文上的细粒度和粗粒度分别对应字和词。在中英文benchmark(包括CLUE, GLUE, SQuAD and RACE)上分别进行实验。结果表明,AMBERT模型在几乎所有情况下都优于现有性能最好的模型,特别是对中文的性能改善显著。模型 AMBERT的整体框架如Figure 3所示。先对输入文本上进行tokenization,以获得细、粗粒度的token序列。细、粗粒度token序列再分别输入到两个encoder。这里的encoder与BERT或Transformer的encoder的架构完全相同。此外,两个encoder在每个对应层共享相同的参数,但二者的嵌入层参数不同。最后分别得到细粒度token序列和粗粒度token序列的的上下文表征。
实验结果:英文数据集Table 4和Table 6是AMBERT在GLUE上的实验结果。在多数数据集上AMBERT要优于其他baseline模型,且多粒度的效果确实好于单粒度。但是如果放到更大范围的模型比较,AMBERT整体上逊色于RoBERTa,但是优于其他模型。另外,从机器阅读理解数据集的对比结果Table 5可以看出,在SQuAD上AMBERT大大优于Google官方的BERT,而在检测span任务中,单词级的BERT通常表现良好,短语级BERT较差。另外,在RACE的dev set 和 test set上,AMBERT发挥稳定,全场最佳。