【每周NLP论文推荐】 掌握实体关系抽取必读的文章
欢迎来到《每周NLP论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。
实体关系抽取作为信息抽取领域的重要研究课题,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。
作者&编辑 | 小Dream哥
1 早期机器学习方面的探索
文献[1] 利用实体词、实体类型、引用类型等特征构造特征向量,采用最大熵分类器构建抽取模型,在ACE RDC 2003 英文语料上的实体关系抽取实验表明, 该方法在关系分类上获得的F1值为52.8% 。
文献[2] 在之前的研究的基础上, 分类组织各种特征,形成平面组合核,并采用SVM分类器在ACE RDC 2004 英文语料上进行实体关系抽取,获得了 70. 3% 的F1值。
文献[3] 在已有特征的基础上,引入字特征, 并采用条件随机场进行医学领域实体间关系的抽取,F1值达到 75% 以上。
文章引用量:300+
推荐指数:✦✦✦✧✧
[1] Kambhatla N. Combining Lexical, Syntactic and Semantic Features with Maximum Entropy Models for Extracting Relationships[C] Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions. 2004: 22.
[2] Zhao S, Grishman R. Extracting Relations with Integrated Information using Kernel Methods[C] Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. 2005: 419-426.
[3] Miao Q, Zhang S, Zhang B, et al. Extracting and Visualizing Semantic Relationships from Chinese Biomedical Text[C] Proceedings of the Pacific Asia Conference on Language. 2012: 99-107.
2 CNN与LSTM的应用
现有的有监督学习关系抽取方法已经取得了较好的效果,但它们严重依赖词性标注、句法解析等自然语言处理标注提供分类特征。而自然语言处理标注工具往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果。近年来,很多研究人员开始将深度学习框架的神经网络模型应用到关系抽取中,神经网络模型能够自动学习句子特征,无需依赖复杂的特征工程以及领域专家知识,具有很强的泛化能力。
文献[4]提出采用卷积神经网络进行关系抽取。他们在词汇层面特征(Lexical-level Feature)的基础上引入目标实体与句子其他词的相对位置信息,来构造句子层面的特征(Sentence-level Feature),然后通过池化层和非线性层获取句子表示。在没有使用NLP处理工具(POS、NER、syntactic analysis)的情况下,取得了最优的实验效果。
文献[5]提出提出了一种基于端到端神经网络的关系抽取模型。该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模。
文章引用量:150+
推荐指数:✦✦✦✦✧
[4] Santos C N D , Xiang B , Zhou B . Classifying Relations by Ranking with Convolutional Neural Networks[J]. Computer Science, 2015, 86(86):132-137.
[5] Miwa M , Bansal M . End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures[J]. 2016.
3 联合抽取
一般传统的串联抽取方法是在实体抽取的基础上进行实体之间关系的识别。在这种方法中,先期实体识别的结果会影响到关系抽取的结果,前后容易产生误差累积。针对这一问题,基于传统机器学习的联合模(Joint model)被提出并逐步用于对这一类的NLP任务进行联合学习。
文章引用量:
推荐指数:✦✦✦✦✦
[6] Zheng S , Hao Y , Lu D , et al. Joint entity and relation extraction based on a hybrid neural network[J]. Neurocomputing, 2017: S0925231217301 -613.
[7] Zheng S , Wang F , Bao H , et al. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme[J]. 2017.
4 FewRel
据了解,这是目前最大的精标注关系抽取数据集。该数据集包含 100 个类别、70000 个实例,全面超越了以往的同类精标注数据集。FewRel 不仅可以应用在经典的监督/远监督关系抽取任务中,在新兴的少次学习(few-shot learning)任务上也有极大的探索价值和广阔的应用前景。
文章引用量:较少
推荐指数:✦✦✦✦✦
[8] FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation
5 多任务和强化学习
介绍一些新近的关于实体关系抽取的研究,包括多任务和强化学习的方法,感兴趣的同学可以基于此继续跟进。
文章引用量:较少
推荐指数:✦✦✦✦✧
[9] Zhepei Wei, Yantao Jia. Joint Extraction of Entities and Relations with a Hierarchical Multi-task Tagging Model. arXiv:1908.08672v1. 2019
[10] Takanobu R , Zhang T , Liu J , et al. A Hierarchical Framework for Relation Extraction with Reinforcement Learning[J]. 2018.
6 如何获取文章与交流
找到有三AI开源项目即可获取。
https://github.com/longpeng2008/yousan.ai
文章细节众多,阅读交流在有三AI-NLP知识星球中进行,感兴趣可以加入。
总结
以上就是实体关系抽取必读的文章,下一期我们将介绍FAQ相关的文章。
有三AI夏季划
有三AI夏季划进行中,欢迎了解并加入,系统性成长为中级CV算法工程师。
转载文章请后台联系
侵权必究