ACL 2021 | 丁香园知识增强预训练模型

2024-05-11 18:52:02

背景

使用预训练模型已经成为大部分NLP任务的标配，因此近年来有大量的工作围绕着如何提高预训练模型的质量。其中，引入外部知识无疑是最热门的话题之一。丁香园NLP联合华师大何晓丰老师团队，在今年的ACL上发表了 SMedBERT 工作。这是在医疗垂直领域下，首次将知识图谱中的医学实体，连同实体关系中的结构化语义信息，同时引入到预训练模型中。利用该预训练模型，在下游包括MRC、语义匹配、NER等任务都带来指标提升。

研究亮点

在过往关于预训练模型（PLMs）的研究中，已经有不少工作讨论了关于引入外部知识的想法。最主要的动机在于，自然语言中蕴含了大量背景知识、逻辑关系等“不可见”的信息。而大型预训练模型的底层逻辑，依然是由“共现”实现的。但现实则是我们往往无法找到足够丰富的文本数据，同时又要求这些文本包含了完备的领域知识，尤其像复杂如医学领域。

另一方面，现有工作大多只利用linked-entity作为辅助知识，而忽略了实体与相邻实体在结构上也存在语义信息。这类结构上的语义对于医学领域尤为重要，观察下方例子：

在医疗领域中，“疾病”、“症状”、“科室” 是最主要的三类实体，它们会由“首诊科室”、“典型症状”、“罕见症状”、“并发症”、“合并症”等关系类型组成大量多对多的实体关系三元组。预训练模型若只使用实体信息，势必会丢失大量图谱结构上的语义信息。

方法

预训练模型 SMedBERT 对于结构信息的捕捉主要由两个创新点实现。首先是 Mention-neighbor Hybrid Attention，它用于获取 linked-entity 的相邻实体信息，分别引入 type-level 和 node-level 的 attention 来学习到相邻实体对于链接实体的重要程度，同时它们将结构化的语义信息融合进了 encoder layer；另一个称为 Mention-neighbor Context Modeling，顾名思义，就是引入链接实体所在文本的上下文信息。不同的是，我们在此处对相邻实体也做了mask处理。以下为整体框架：

模型主要由3个组件构成，T-Encoder处理输入的mention以及挑选最重要的相邻实体，使用的方法是 Personalized PageRank；另外两块包括 K-Encoder 以及 Pre-training Tasks 分别实现了我们前文提到的 attention 和 mask 处理。最终，在训练目标上对mask任务做了融合：

实验结果

关于训练数据，我们收集了约5G的医疗领域中文文本，总tokens数约为30亿。为实验比较，我们选择了OpenKG以及丁香园的医学图谱DXY-KG，embedding部分选用TransR。在验证数据上，选择了ChineseBLUE的四组公开数据集，CHIP-RE，WebMedQA，以及来自丁香园DXY真实应用场景的下游任务数据集 DXY-NER, DXY-RE。

基线模型的选择包括了通用 BERT-base， BERT-wwm，RoBERTa；鉴于在医疗领域内单独优化的预训练模型较少，我们除了选择了 MC-BERT，也使用BERT在我们的医疗数据集上完成pre-train作为补充，标记为 BioBERT-zh；同时，我们也选择了当时SOTA表现的预训练模型 ERNIE-THU 和 KnowBERT 作为对照。

其中，后缀'open'和'med'表示预训练使用公开数据集语料和医疗数据集语料。结果表明下各下游任务中均获得了提升。

另外，我们也比较了不同模型对于实体embdding 的语义相似能力。图中的D1,D2,D3数据集分别表示我们从KG数据集中挑选所有“同义”关系的实体对，作为正样本。对于这些正样本的，根据3种不同程度的邻实体覆盖度来划分（划分依据为Jaccard Index）。D2使用高频重合的实体对，D3使用低频重合的实体对。实验表明，SmedBERT对于更具备结构信息的捕捉能力，尤其在D2数据集中，由于结构信息较丰满，相应提升也更多。

结论

该工作是基于我们对于医疗知识图谱的观察而得出，医学知识的复杂度，需要我们拓宽语义信息获取的来源。本文从“相邻实体”引入语义信息，在下游各项 NLP 任务中得到提升，其中也给我们留下了两个后续可以深度挖掘的角度。第一点是是否可以利用'farher neighboring'的结构信息；第二是长尾低频的医学实体，如何更好的学习到语义表示。

加入我们

丁香园大数据NLP团队招聘各类算法人才，Base杭州。NLP团队的使命是利用NLP（自然语言处理）、Knowledge Graph（知识图谱）、Deep Learning（深度学习）等技术，处理丁香园海量医学文本数据，打通电商、在线问诊、健康知识、社区讨论等各个场景数据，构建医学知识图谱，搭建通用NLP服务。团队关注NLP前沿技术，也注重落地实现，包括但不仅限于知识图谱、短文本理解、语义搜索、可解释推荐、智能问答等。加入我们，让健康更多，让生活更好！

欢迎各位朋友推荐或自荐至 yangbt@dxy.cn

【技术综述】深度学习在自然语言处理中的应用发展史

本篇介绍深度学习在自然语言处理(NLP)中的应用,从词向量开始,到最新最强大的BERT等预训练模型,梗概性的介绍了深度学习近20年在NLP中的一些重大的进展. 作者&编辑 | 小Dream哥 ...
【NLP】ALBERT：更轻更快的NLP预训练模型

目前在NLP领域,出彩的预训练模型的新工作,几乎都是基于BERT的改进,前面我们就介绍了XLNET.今天我来介绍一个更新的工作,相比于BERT,它更轻量,效果也要好. 作者&编辑 | 小Dre ...
【NLP-NER】什么是命名实体识别？

命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务.NER是信息提取.问答系统.句法分析.机器翻译等众多NLP任务的重要基础工具. 命名实体识别的准确 ...
【文本信息抽取与结构化】详聊如何用BERT实现关系抽取

常常在想,自然语言处理到底在做的是一件什么样的事情?到目前为止,我所接触到的NLP其实都是在做一件事情,即将自然语言转化为一种计算机能够理解的形式.这一点在知识图谱.信息抽取.文本摘要这些任务中格外明 ...
ACL 2019论文| 揭秘认知图谱！从多跳阅读理解问答开始

"机器的阅读理解与问答"一直以来被认为是"自然语言理解(NLU)"的核心问题之一,随着BERT等模型的兴起,单段落的简单阅读理解任务取得了重大突破:研究者将目光 ...
【信息抽取】如何使用BERT进行关系抽取

事物.概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中.为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开. 然而,随着互联 ...
概述：各学科和各种任务的最新机器学习算法

了解NLP,计算机视觉,语音识别和推荐系统的最佳算法 CV Computer Vision, NLP Natural Language Processing, RS Recommender Syste ...
【每周NLP论文推荐】介绍语义匹配中的经典文章

欢迎来到<每周NLP论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 语义匹配也是NLP中比较基础的任务,它的主 ...
【NLP】深入浅出解析BERT原理及其表征的内容

本篇介绍目前NLP领域里影响力最大的预训练模型BERT.首先,大致介绍了BERT里有什么:接着,介绍了BERT的结构和其预训练的方式:最后,再总结BERT的表征的内容和分布. 作者&编辑 | ...
赛尔原创@ACL 2021 | 事理图谱知识增强的溯因推理

论文名称:Learning Event Graph Knowledge for Abductive Reasoning 论文作者:杜理,丁效,刘挺,秦兵原创作者:杜理,丁效转载须标注出处:哈工大S ...
ACL 2021 | 结构化知识蒸馏方法

本文介绍了上海科技大学屠可伟课题组与阿里巴巴达摩院的一项合作研究,提出了在结构预测问题上一种较为通用的结构化知识蒸馏方法.该论文已被 ACL 2021 接受为长文. 论文标题: Structura ...
2021年如何科学的“微调”预训练模型？

前言笔者刚刚入门NLP的时候,其实还和朋友们调侃过"attention is all you need'这么绝对的标题也敢发出来?当然似乎后来还有一个paper是"cnn is ...
万份肿瘤PPT及全套2021思维导图版肿瘤指南免费下载/网上免费观看丁香园最牛肿瘤学术节/抽奖iPad、SKG按摩仪

欢迎大家参加丁香园举办的肿瘤学术大会
详解NLP中的预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文...

NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...
ACL 2021 | 知识引导的事件因果关系数据自动生成框架

AI科技评论今天介绍一篇发表于自然语言处理领域顶级会议ACL 2021的论文<LearnDA: Learnable Knowledge-Guided Data Augmentation for ...
丁香园发布《2021中国医疗人才发展报告》，超六成医学生考虑转行

来源:中国经济周刊-经济网中国经济周刊-经济网讯 7月10日,在第四届中国医院发展大会上,丁香园·丁香人才发布了<2021中国医疗人才发展报告>(下称<报告>). < ...
关于NLP相关技术全部在这里：预训练模型、信息抽取、文本生成、知识图谱、对话系统

我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习.其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学 ...
关于NLP相关技术全部在这里：预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学...

大家都知道NLP近几年非常火,而且发展也特别快.那些耳熟的BERT.GPT-3.图神经网络.知识图谱等技术实际上也就是这几年发展起来的,特别像图神经网络在这两年间取得了飞速的发展.我们正处在信息爆炸的 ...

ACL 2021 | 丁香园知识增强预训练模型

背景

研究亮点

方法

实验结果

结论

加入我们

相关推荐