ACL 2021 | 丁香园知识增强预训练模型
背景
使用预训练模型已经成为大部分NLP任务的标配,因此近年来有大量的工作围绕着如何提高预训练模型的质量。其中,引入外部知识无疑是最热门的话题之一。丁香园NLP联合华师大何晓丰老师团队,在今年的ACL上发表了 SMedBERT 工作。这是在医疗垂直领域下,首次将知识图谱中的医学实体,连同实体关系中的结构化语义信息,同时引入到预训练模型中。利用该预训练模型,在下游包括MRC、语义匹配、NER等任务都带来指标提升。
研究亮点
在过往关于预训练模型(PLMs)的研究中,已经有不少工作讨论了关于引入外部知识的想法。最主要的动机在于,自然语言中蕴含了大量背景知识、逻辑关系等“不可见”的信息。而大型预训练模型的底层逻辑,依然是由“共现”实现的。但现实则是我们往往无法找到足够丰富的文本数据,同时又要求这些文本包含了完备的领域知识,尤其像复杂如医学领域。
另一方面,现有工作大多只利用linked-entity作为辅助知识,而忽略了实体与相邻实体在结构上也存在语义信息。这类结构上的语义对于医学领域尤为重要,观察下方例子:
在医疗领域中,“疾病”、“症状”、“科室” 是最主要的三类实体,它们会由“首诊科室”、“典型症状”、“罕见症状”、“并发症”、“合并症”等关系类型组成大量多对多的实体关系三元组。预训练模型若只使用实体信息,势必会丢失大量图谱结构上的语义信息。
方法
预训练模型 SMedBERT 对于结构信息的捕捉主要由两个创新点实现。首先是 Mention-neighbor Hybrid Attention,它用于获取 linked-entity 的相邻实体信息,分别引入 type-level 和 node-level 的 attention 来学习到相邻实体对于链接实体的重要程度,同时它们将结构化的语义信息融合进了 encoder layer;另一个称为 Mention-neighbor Context Modeling,顾名思义,就是引入链接实体所在文本的上下文信息。不同的是,我们在此处对相邻实体也做了mask处理。以下为整体框架:
模型主要由3个组件构成,T-Encoder处理输入的mention以及挑选最重要的相邻实体,使用的方法是 Personalized PageRank;另外两块包括 K-Encoder 以及 Pre-training Tasks 分别实现了我们前文提到的 attention 和 mask 处理。最终,在训练目标上对mask任务做了融合:
实验结果
关于训练数据,我们收集了约5G的医疗领域中文文本,总tokens数约为30亿。为实验比较,我们选择了OpenKG以及丁香园的医学图谱DXY-KG,embedding部分选用TransR。在验证数据上,选择了ChineseBLUE的四组公开数据集,CHIP-RE,WebMedQA,以及来自丁香园DXY真实应用场景的下游任务数据集 DXY-NER, DXY-RE。
基线模型的选择包括了通用 BERT-base, BERT-wwm,RoBERTa;鉴于在医疗领域内单独优化的预训练模型较少,我们除了选择了 MC-BERT,也使用BERT在我们的医疗数据集上完成pre-train作为补充,标记为 BioBERT-zh;同时,我们也选择了当时SOTA表现的预训练模型 ERNIE-THU 和 KnowBERT 作为对照。
其中,后缀'open'和'med'表示预训练使用公开数据集语料和医疗数据集语料。结果表明下各下游任务中均获得了提升。
另外,我们也比较了不同模型对于实体embdding 的语义相似能力。图中的D1,D2,D3数据集分别表示我们从KG数据集中挑选所有“同义”关系的实体对,作为正样本。对于这些正样本的,根据3种不同程度的邻实体覆盖度来划分(划分依据为Jaccard Index)。D2使用高频重合的实体对,D3使用低频重合的实体对。实验表明,SmedBERT对于更具备结构信息的捕捉能力,尤其在D2数据集中,由于结构信息较丰满,相应提升也更多。
结论
该工作是基于我们对于医疗知识图谱的观察而得出,医学知识的复杂度,需要我们拓宽语义信息获取的来源。本文从“相邻实体”引入语义信息,在下游各项 NLP 任务中得到提升,其中也给我们留下了两个后续可以深度挖掘的角度。第一点是是否可以利用'farher neighboring'的结构信息;第二是长尾低频的医学实体,如何更好的学习到语义表示。
加入我们
丁香园大数据NLP团队招聘各类算法人才,Base杭州。NLP团队的使命是利用NLP(自然语言处理)、Knowledge Graph(知识图谱)、Deep Learning(深度学习)等技术,处理丁香园海量医学文本数据,打通电商、在线问诊、健康知识、社区讨论等各个场景数据,构建医学知识图谱,搭建通用NLP服务。团队关注NLP前沿技术,也注重落地实现,包括但不仅限于知识图谱、短文本理解、语义搜索、可解释推荐、智能问答等。加入我们,让健康更多,让生活更好!
欢迎各位朋友推荐或自荐至 yangbt@dxy.cn