本文对EMNLP 2020论文标题通过关键词「medical」进行过滤,共检索出9篇文章,其中long paper 7篇、short paper 2篇。论文作者中出现华人名字的有8篇,国内机构参与的有4篇(long paper),这凸现了国内在医疗NLP研究上的热情。研究方向涉及领域预训练、信息抽取(事件抽取/实体链指)、联邦学习等。在模型中引入大规模医学领域知识信息是一种被广泛采用的方式,有3篇文章涉及领域数据集的发布,并使用数据集继续预训练,在下游任务中证实领域预训练的有效性。本文的组织结构:
本文在BERT模型的基础上,引入疾病相关知识信息作为预训练语料,增强了BERT在一些下游医学任务上的能力,比如健康问答、医学蕴含推断、疾病实体识别等任务。本文的重点在于预训练语料的准备,如下图所示,选用MeSH数据库中的疾病,共计5853条,然后从Wikipedia中获取每个疾病的wiki信息,进一步从wiki信息中获取疾病的某一纬度(aspact)的描述段落passage。文章考虑了疾病的8个纬度,包括:疾病信息Information/病因Causes/症状symptoms/诊断Diagnosis/治疗Treatment/预防Prevention/病理学/Pathophysiology传播学Transmission,如果描述段落passage中没有disease和aspect字段,则将预先定义的模板 what is the [aspect] of [disease]? 补充到passage的开头,最终得到14617个passage。对训练数据做MASK的方式是将passage中的disease和aspect替换为[MASK],实际上被MASK的只能是5853个疾病和8个疾病纬度。模型在BERT编码后增加了一层线性映射层,同时对BPE编码所导致的disease的拆分,对disease各subtoken做了联合loss计算。最后实验在原生BERT以及其他医学领域BERT上,采用所提方法进行预训练后,在三个下游任务上进行效果对比,证明了加入disease信息后效果均得到提升。这篇文章采用的Mask机制只针对disease及其aspect,意为让BERT去刻意学习二者之间的信息,这给出了一个启示,在面对具体下游任务时,有针对性地增加任务相关的领域数据、设计相关的Mask方式,继续预训练,对任务效果的提升是很有帮助的。
实体标准化(类似实体链指)通常采用SR(selecting and re-ranking)方式,即先召回后排序,论文给出中文医学实体标准化中存在一对多的情况(multi-implication),提出GR(generating and re-ranking)方法,即采用生成模型得到候选,然后再对候选排序。下图为生成模型结构图,文章对生成模型做了两点重要改进:Constraint decoding 和 Catebory-based refining:Constraint decoding:使用ICD9作为KG,按ICD9的编码规范将标准实体进行分类,并对每类标准实体构建前缀树,如下图虚框所示。使用生成模型seq2seq机制,target术语首token增加其所属类别的label,在解码阶段,先解码出label,在之后的解码中,每次输出都限制在label前缀树的某一层(解码约束),如图示例,label-2后的解码空间为(大,脑,颅,环),再之后解码空间是(修,深),控制解码空间可通过在做MASK得到,生成模型可以得到多个label的结果,直到产生(类似实体链指)通常采用SR(selecting and re-ranking)方式,即先召回后排序,论文给出中文医学实体标准化中存在一对多的情况(multi-implication),提出GR(generating and re-ranking)方法,即采用生成模型得到候选,然后再对候选排序。Catebory-based refining:使用training数据集训练得到模型Mg,然后对test数据集预测得到各个样本的label,按label将test划分为n个subset,然后使用每个subset对Mg迭代进行finetune,得到最终模型Mc:在预测阶段使用模型Mc,通过设置beam size控制生成候选的量,当beam size=1时,生成的label数目K作为标准实体的数目。对候选和原实体进行编码,然后计算相似得分对候选进行排序,topK作为最终的预测结果,整个过程可以看着是GR(generating and re-ranking)。论文在CHIP2019术语标准化任务上进行实验,在Test集合上得到89.3%的结果。模型生成label的准确率和bz=1时生成的label数目对最终结果影响比较关键,实际上直接对原实体进行分类,判断其标准实体的数目,也是能够解决mutil-implication的问题的,而且可以独立优化这个环节。论文对生成模型在解码阶段增加约束限制是一个值得借鉴的亮点。
Towards Medical Machine Reading Comprehension with Structural Knowledge and Plain Text. Dongfang Li, Baotian Hu, Qingcai Chen, Weihua Peng and Anqi Wang.
COMETA: A Corpus for Medical Entity Linking in the Social Media. Marco Basaldella, Fangyu Liu, Ehsan Shareghi and Nigel Collier.
Biomedical Event Extraction as Sequence Labeling. Alan Ramponi, Rob van der Goot, Rosario Lombardo and Barbara Plank.
FedED: Federated Learning via Ensemble Distillation for Medical Relation Extraction. Dianbo Sui, Yubo Chen, Jun Zhao, Yantao Jia, Yuantao Xie and Weijian Sun.
Infusing Disease Knowledge into BERT for Health Question Answering, Medical Inference and Disease Name Recognition. Yun He, Ziwei Zhu, Yin Zhang, Qin Chen and James Caverlee.
A Knowledge-driven Generative Model for Multi-implication Chinese Medical Procedure Entity Normalization. Jinghui Yan, Yining Wang, Lu Xiang, Yu Zhou and Chengqing Zong.
Short Papers
BioMegatron: Larger Biomedical Domain Language Model. Hoo-Chang Shin, Yang Zhang, Evelina Bakhturina, Raul Puri, Mostofa Patwary, Mohammad Shoeybi and Raghav Mani.
Querying Across Genres for Medical Claims in News. Chaoyuan Zuo, Narayan Acharya and Ritwik Banerjee
Illustration by<a href='undefined'>Maria Shukshina</a> from <a href='https://icons8.com/'>Icons8</a>