AAAI 2021线上分享 | BERT模型蒸馏技术,阿里云有新方法

通过在下游 NLP 任务上的微调,BERT、XLNet 和 RoBERTa 等预训练语言模型已经展示出了卓越的性能。但是,这些模型中的大量参数导致储存和计算成本过高,从而对模型在资源受限应用场景中的部署造成负担。
典型的解决方案是采用知识蒸馏(knowledge distillation, KD)来降低储存计算成本并加速推理过程。KD 的基本思路是将大型 BERT 模型压缩为小型学生模型,同时保留教师模型的知识。然而,对于稀疏训练数据的目标领域而言,教师模型很难将有用的知识传递给学生模型,导致学生模型性能下降。
这时,数据增强(data augmentation, DA)成为处理数据稀疏问题的常用策略,该策略基于标注训练集生成新数据,进而增强目标数据。但是,学界没有出现很多用于 BERT 知识蒸馏的高效数据增强方法。当前蒸馏增强方法往往手动设计,诸如基于同义词替换的 thesaurus 方法、利用聚合关系的单词替换或大型语言模型的预测方法。
这类增强方法的预训练不仅耗时,还很难找到有益于知识蒸馏的最优方案。设计一种自动增强数据稀疏领域中有用数据的高效策略仍是一项具有挑战性的任务。
在阿里巴巴等机构合作的这篇被 AAAI 2021 接收的论文《Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation 》中,研究者们提出了一种跨域自动数据增强方法来为数据稀缺领域进行扩充,并在多个不同的任务上显著优于最新的基准。
机器之心最新一期 AAAI 线上分享邀请到了论文共同一作、阿里云高级算法专家邱明辉,为大家详细解读此前沿研究。
分享主题:基于跨领域数据增强的 BERT 模型蒸馏技术
个人简介:邱明辉,新加坡 SMU 博士,美国卡耐基梅隆大学访问学者,现任阿里云高级算法专家。主要从事自然语言处理以及深度学习算法和框架研究,迄今为止已发表 40 余篇自然语言处理和机器学习方向的顶会和期刊论文。谷歌学术引用量为 1500+,H 指数(h-index)20+。他曾获得 Best paper runner-up award 和 Best demo award,并担任多家国际顶会和期刊的审稿人。目前主要负责开源框架 EasyTransfer 的开发和落地,目前该框架已经服务阿里内部多个 BU 业务场景。
分享摘要:尽管诸如 BERT 之类的预训练语言模型在各种自然语言处理任务中均取得了令人满意的性能,但是它们的模型非常大,在实时应用中很难进行部署。一种典型的方法是采用知识蒸馏将这些大型的预训练模型(教师模型)压缩为小的学生模型。但是,对于缺乏训练数据的目标领域,教师几乎无法将有用的知识传给学生,这会导致学生模型的效果下降。为了解决这个问题,我们提出了一种方法,通过一种跨域自动数据增强的技术来为数据稀缺领域进行扩充。这个方法用强化选择器从目标数据分布中自动选取样本,来提升学生模型的表现。大量的实验表明,所提出的方法在四个不同的任务上明显优于最新的基准,对于数据稀缺的领域,压缩的学生模型甚至比原始的大型教师模型表现更好,参数更少(只有~13.3%)。
分享论文链接:https://arxiv.org/pdf/2101.08106.pdf
(0)

相关推荐