顶会集结 深度解析:医疗 AI如此火爆,NLP如何赋能?

作者:辰鸿

最近,“医疗+AI”很热门,在此背景下,本文对EMNLP 2020和医学相关的若干文章做了梳理,并对部分文章进行了解读,洞察研究者们在医学NLP方向上所做的前沿研究工作、探究NLP如何赋能。

本文对EMNLP 2020论文标题通过关键词「medical」进行过滤,共检索出9篇文章,其中long paper 7篇、short paper 2篇。论文作者中出现华人名字的有8篇,国内机构参与的有4篇(long paper),这凸现了国内在医疗NLP研究上的热情。
研究方向涉及领域预训练、信息抽取(事件抽取/实体链指)、联邦学习等。在模型中引入大规模医学领域知识信息是一种被广泛采用的方式,有3篇文章涉及领域数据集的发布,并使用数据集继续预训练,在下游任务中证实领域预训练的有效性。
本文的组织结构:
医疗问答 & 推断 & 疾病NER

论文链接:

https://www.aclweb.org/anthology/2020.emnlp-main.372.pdf

本文在BERT模型的基础上,引入疾病相关知识信息作为预训练语料,增强了BERT在一些下游医学任务上的能力,比如健康问答、医学蕴含推断、疾病实体识别等任务。
本文的重点在于预训练语料的准备,如下图所示,选用MeSH数据库中的疾病,共计5853条,然后从Wikipedia中获取每个疾病的wiki信息,进一步从wiki信息中获取疾病的某一纬度(aspact)的描述段落passage。
文章考虑了疾病的8个纬度,包括:疾病信息Information/病因Causes/症状symptoms/诊断Diagnosis/治疗Treatment/预防Prevention/病理学/Pathophysiology传播学Transmission,如果描述段落passage中没有disease和aspect字段,则将预先定义的模板 what is the [aspect] of [disease]? 补充到passage的开头,最终得到14617个passage。对训练数据做MASK的方式是将passage中的disease和aspect替换为[MASK],实际上被MASK的只能是5853个疾病和8个疾病纬度。
模型在BERT编码后增加了一层线性映射层,同时对BPE编码所导致的disease的拆分,对disease各subtoken做了联合loss计算。最后实验在原生BERT以及其他医学领域BERT上,采用所提方法进行预训练后,在三个下游任务上进行效果对比,证明了加入disease信息后效果均得到提升。
这篇文章采用的Mask机制只针对disease及其aspect,意为让BERT去刻意学习二者之间的信息,这给出了一个启示,在面对具体下游任务时,有针对性地增加任务相关的领域数据、设计相关的Mask方式,继续预训练,对任务效果的提升是很有帮助的。

医学事件抽取


论文链接:

https://www.aclweb.org/anthology/2020.emnlp-main.431

本论文的重点在于将医学事件抽取转化为序列标注任务,然后设计了一套标注范式,将事件中的触发词、关系和参数统一到一个空间,并使用多任务和多标签方式对标注进行解码。在BioNLP Genia2011事件抽取任务上进行实验验证,对比其他方法,本文所提出的新方法BeeSL取得了新的sota。

将医学事件抽取转换为序列标注,论文所设计的标注范式如下图所示,d可以是事件(dependent parsing的节点),也可以是实体提及(mention),r为关系,h为参数的head。每个token被标注为<d, r, h>,d和r其实是和原始标注数据是一致的,h为参数所属事件(dependent parsing节点,或触发词)的相对位置标记(relative head mention position),+1表示左边,-1表示右边,如第一个+Reg+1表示事件REGULATION左边第一个参数(触发词induced)。d的标注空间为所有事件,r的标注空间为所有事件关系,h的标注空间为事件关系下的所有参数相对位置标记。
在实验阶段,论文对比了d, r, h不同组化时多任务+多标签的效果,验证了d,r_h组化做多任务、多标签分类效果最佳。同时对比了以往其他任务的效果,证实该方法为SOTA,但需要注意的是,本文方法基于BERT预训练,而所对比方法则没有基于BERT。总的来说,本文的主要卖点在于提出了新的标注范式解决事件抽取问题。
本文所提标注范式示例
论文提出的模型如下图所示,基于BioBert进行编码(医学领域的预训练BERT),在解码阶段,将标注三元组划分为两个任务,一是判断d,二是判断r和h,由于在同一个事件下,其所属关系和参数可能存在多个,即关系和参数的嵌套与重叠,所以对r和h的判断采用了多标签的方式,同时文章将r和h进行组合转换到一个标签空间r_h。两个任务均是通过softmax进行解码,根据所设置的不同阈值选取最后的标签类别。

医疗术语标准化


论文链接:

https://www.aclweb.org/anthology/2020.emnlp-main.116.pdf

实体标准化(类似实体链指)通常采用SR(selecting and re-ranking)方式,即先召回后排序,论文给出中文医学实体标准化中存在一对多的情况(multi-implication),提出GR(generating and re-ranking)方法,即采用生成模型得到候选,然后再对候选排序。
下图为生成模型结构图,文章对生成模型做了两点重要改进:Constraint decoding 和 Catebory-based refining:
Constraint decoding:使用ICD9作为KG,按ICD9的编码规范将标准实体进行分类,并对每类标准实体构建前缀树,如下图虚框所示。使用生成模型seq2seq机制,target术语首token增加其所属类别的label,在解码阶段,先解码出label,在之后的解码中,每次输出都限制在label前缀树的某一层(解码约束),如图示例,label-2后的解码空间为(大,脑,颅,环),再之后解码空间是(修,深),控制解码空间可通过在做MASK得到,生成模型可以得到多个label的结果,直到产生(类似实体链指)通常采用SR(selecting and re-ranking)方式,即先召回后排序,论文给出中文医学实体标准化中存在一对多的情况(multi-implication),提出GR(generating and re-ranking)方法,即采用生成模型得到候选,然后再对候选排序。
Catebory-based refining:使用training数据集训练得到模型Mg,然后对test数据集预测得到各个样本的label,按label将test划分为n个subset,然后使用每个subset对Mg迭代进行finetune,得到最终模型Mc:
在预测阶段使用模型Mc,通过设置beam size控制生成候选的量,当beam size=1时,生成的label数目K作为标准实体的数目。对候选和原实体进行编码,然后计算相似得分对候选进行排序,topK作为最终的预测结果,整个过程可以看着是GR(generating and re-ranking)。
论文在CHIP2019术语标准化任务上进行实验,在Test集合上得到89.3%的结果。
模型生成label的准确率和bz=1时生成的label数目对最终结果影响比较关键,实际上直接对原实体进行分类,判断其标准实体的数目,也是能够解决mutil-implication的问题的,而且可以独立优化这个环节。论文对生成模型在解码阶段增加约束限制是一个值得借鉴的亮点。

医疗阅读理解


论文链接:

https://www.aclweb.org/anthology/2020.emnlp-main.111.pdf

本文出自百度,文章构建了近年来中国国家执业药师资格考试中收集的多项选择问答数据集,提出了一种基于预训练语言模型和协同注意力机制架构的模块化端到端阅读理解模型KMQA,能够整合知识图谱信息并将知识注入神经网络。在实验中该模型利用了结构化医学知识图谱CMeKG和药学参考书中的文本片段。具体可参考百度官方解读,这里不再阐述。

医疗实体链接


论文链接:

https://www.aclweb.org/anthology/2020.emnlp-main.253.pdf

本文给出了一个可用于社会化媒体中的医疗实体链接语料库,它包含了2万个英文生物医学实体提及,这些生物医学实体是来自Reddit中公开的健康相关的讨论帖子,经过专家标注并链接到SNOMED CT知识库上,SNOMED CT是一个被广泛使用的医学领域的知识图谱。

医疗关系抽取+联邦学习


论文链接:

https://www.aclweb.org/anthology/2020.emnlp-main.165.pdf

医学领域数据往往因隐私保护而不便获取,而医学关系抽取模型又需要收集到这些医学数据,在这种冲突之下本文提出使用联邦学习进行模型训练,而联邦学习需要交换模型参数,模型参数交换的通讯开销往往成为训练的瓶颈,本文进一步提出基于知识蒸馏方法解决通讯开销,该方法不再上传节点模型的参数到中心模型,而是集成节点模型的预测结果后将预测结果上传到中心模型,进行模型信息的更新。

医学语言模型


论文链接:

https://www.aclweb.org/anthology/2020.emnlp-main.379.pdf

本文研究评估可能影响领域语言模型的几个因素,如subword词汇集,模型大小,预训练语料和领域迁移性。基于Megatron-LM模型在更大的生物医学语料数据集上继续预训练得到BioMegatron模型,通过在不同的纬度进行消融实验得到不同模型,在QA、NER等任务上,对比BERT、Robert、BioBert等,分析各纬度对语言模型的影响。结论是针对领域应用:领域模型要好一些,在token分类任务效果上模型大小是次要因素,更大的模型在跨领域任务上不一定效能更好,总之没有一个模型是万能的。

总  结

综上可以看到,EMNLP2020医学相关的研究主要集中在使用领域数据继续预训练,信息抽取和标准化(信息检索)。在模型中引入医学知识信息(领域信息),或继续预训练,或进行信息交互,对各类任务在最终效果上的提升都是有益的。

附录:医疗NLP论文list

Long Papers
  1. Towards Medical Machine Reading Comprehension with Structural Knowledge and Plain Text. Dongfang Li, Baotian Hu, Qingcai Chen, Weihua Peng and Anqi Wang.
  2. MedDialog: Large-scale Medical Dialogue Datasets. Guangtao Zeng, Wenmian Yang, Zeqian Ju, Yue Yang, Sicheng Wang, Ruisi Zhang, Meng Zhou, Jiaqi Zeng, Xiangyu Dong, Ruoyu Zhang, Hongchao Fang, Penghui Zhu, Shu Chen and Pengtao Xie.
  3. COMETA: A Corpus for Medical Entity Linking in the Social Media. Marco Basaldella, Fangyu Liu, Ehsan Shareghi and Nigel Collier.
  4. Biomedical Event Extraction as Sequence Labeling. Alan Ramponi, Rob van der Goot, Rosario Lombardo and Barbara Plank.
  5. FedED: Federated Learning via Ensemble Distillation for Medical Relation Extraction. Dianbo Sui, Yubo Chen, Jun Zhao, Yantao Jia, Yuantao Xie and Weijian Sun.
  6. Infusing Disease Knowledge into BERT for Health Question Answering, Medical Inference and Disease Name Recognition. Yun He, Ziwei Zhu, Yin Zhang, Qin Chen and James Caverlee.
  7. A Knowledge-driven Generative Model for Multi-implication Chinese Medical Procedure Entity Normalization. Jinghui Yan, Yining Wang, Lu Xiang, Yu Zhou and Chengqing Zong.
Short Papers
  1. BioMegatron: Larger Biomedical Domain Language Model. Hoo-Chang Shin, Yang Zhang, Evelina Bakhturina, Raul Puri, Mostofa Patwary, Mohammad Shoeybi and Raghav Mani.
  2. Querying Across Genres for Medical Claims in News. Chaoyuan Zuo, Narayan Acharya and Ritwik Banerjee

Illustration by <a href='undefined'>Maria Shukshina</a> from <a href='https://icons8.com/'>Icons8</a>

- The End -

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

(0)

相关推荐