【NLP】信息抽取

2024-08-03 10:04:53

来自：CS的陋室

这篇同样是课程的系列笔记（深蓝学院）。上一节讲的观点分析，即分析某个人对某件事情的评价，好坏，怎么好或者怎么坏，但是问题来了，我们如何识别这些人评价的具体是什么内容呢，举一个类似的问题，如何从海量新闻中识别最近股市大跌，如何识别最近的冬奥会，以快速应对这些大事件带来的影响呢，这就是所谓的信息抽取。

根据老师的讲解，信息抽取主要分为命名实体识别、关系抽取、实体消歧等。

信息抽取的定义

从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术，即Making information more machine-readable，换成更方便及其识别的形式，以进行后续的研究。

下面是一个例子，从2011年的7级地震，相信不少人还记忆犹新，尤其是他的福岛核电站，那些年我们还抢过紫菜来着对吧。将一条新闻中的重点信息进行抽取和结构化，形成下面的形式，就是信息抽取。

命名实体识别

按照老师的讲解，命名实体识别的任务主要由下面的两块内容来解释，核心是把“是什么”找出来。

识别出待处理文本中七类（人名、机构名、地名、时间、日期、货币和百分比）命名实体，
两个子任务：实体边界识别和确定实体类别

看起来比较简单，但是实际上并非如此，有很多“边缘”问题其实并不简单，有些识别的难度比较大，例如同义词，人名和别称，杜甫，杜子美，子美，杜工部，指的同一个人；有些词还有很丰富的含义，例如“苹果”，指的手机还是水果，就不好说。命名实体识别的主要方法其实比较统一，就是通过语境和语言与法特征进行抽取，同时一些比较常用的概率统计方法已经被大量使用，如MEMM，HMM，CRF等。

按照惯例放论文供参考，偏综述和对比，都是一些已经比较好的方法，虽然比较老。
[1] 吴友政. 问答系统关键技术研究. 中国科学院自动化研究所博士论文. 2006.
[2] Gina-Anne Levow. The Third International Chinese Language Processing Backoff: Word Segmentation and Name Entity Recognition [C]. Proceedings of the Fifth SigHAN Workshop on Chinese Language Processing, Sydney: Association for Computational Linguistics, 2006: 108-117.

关系抽取

关系抽取是命名实体识别的更进一步。Alexander Schutz等人认为关系抽取是自动识别由一对概念和联系这对概念的关系构成的相关三元组（A怎么了B）。

目前的主要方法主要是机器学习的方法，将关系实例转换成高维空间中的特征向量或直接用离散结构来表示，在标注语料库上训练生成分类模型，然后再识别实体间关系。基于特征向量的方法主要考虑如何获取各种有效的词法、语法、语义等特征，并把它们有效地集成起来，从而产生描述实体语义关系的各种局部特征和简单的全局特征，而核函数的方法主要考虑如何有效挖掘反映语义关系的结构化信息及如何有效计算结构化信息之间的相似度。其优缺点如下图所示。

按照惯例放论文供参考。
[1] GuoDong Zhou, Jian Su, Jie Zhang, and Min Zhang. 2005. Exploring various knowledge in relation extraction. In Proceedings of ACL.

实体消歧

这是目前这一块最难的部分。命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体，例如苹果是指一种水果还是出IPhone的公司，还有很多同名的人，这是一个做非常头疼的问题。常见的方法有两种，一个是基于聚类方法的，另一个是基于实体链接的。

基于聚类的方法认为，统一指向应该有类似的上下文，“苹果”指公司的时候上下文应该是和这家公司有关，于是用聚类其实更加合适，结合词袋模型、语义特征、社交网络等就有比较好的结果。基于实体链接的方法则主要采用这种知识库作为支持的方案，将内容链接到知识库中，首先用前面的方法发现实体，然后将实体放在知识库中搜索，找到最为相似的特征进行匹配，得到最终结果。基于聚类的方法对基础工作（即知识库）的要求并不是很高，但是问题在于对知识库没有的内容会比较乏力，因此两者经常会一同使用，同时具有较好的结果。

按照惯例放论文供参考。
[1] Han, X. & Zhao, J. 2009. Named entity disambiguation by leveraging Wikipedia semantic knowledge. Proceeding of the 18th ACM conference on Information and knowledge management, pp. 215-224.
[2] Han, X. & Zhao, J. 2010. Structural Semantic Relatedness: A Knowledge-Based Method to Named Entity Disambiguation. Proceeding of ACL, pp. 50-59.
[3] XP.Han and L.Sun. A Generative Entity-Mention Model for Linking Entities with Knowledge Base. In Proceeding of ACL. 2011

问题与挑战

封闭走向开放

尽可能突破语料的领域性限制
互联网提供大量的语料，可以加以利用
信息抽取和识别相结合

鲁棒性要求更高

句法分析技术的支持
实体识别技术的进一步革新

大规模信息抽取

海量信息的获取，技术和理论方法
应对信息的低质量问题

深层语义信息

语言的丰富性导致很多内容的浅层理解会有很大误差

知识库的依赖

知识库确实能提升信息抽取的准确性，这要求知识库需要很高的可靠性

说到这里，这是根据课程内容总结的，对自己的理解有很大的补充，但是有一些细节之处不敢苟同，而且这篇文章也很泛泛，我会在未来慢慢展开，敬请期待，拖更这么久，别打我。

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！

实体相交，切割空间的方法，建筑师编程指南-sketchup插件04

在翻阅sketchup的开发文档的时候,发现非常多的命令都有示例代码片段,但是偏偏最重要的实体相交 intersect_with 竟然没有示例的代码片段,而且这个方法参数比较多,理解起来不是很容易.所 ...
知识图谱构建技术一览

知识图谱构建技术一览一.什么是知识图谱二.知识图谱的分层架构三.知识图谱构架技术 (一)数据获取(Data Acquisition) (二)信息抽取(Information Extraction ...
终于有人把知识图谱讲明白了

导读:知识图谱的概念诞生于2012年,由Google公司首先提出.知识图谱的提出是为了准确地阐述人.事.物之间的关系,最早应用于搜索引擎.知识图谱是为了描述文本语义,在自然界建立实体关系的知识数据库. ...
知识图谱应用研究

同济大学 zhou xiaohan对知识图谱的应用情况进行了系统性研究,发表在CCEAI2020的会议上,这里是个简单的翻译. 摘要: 知识图谱,将信息表示为语义图,已经引起了工业界和学术界的广泛关注 ...
详解NLP中的预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文...

NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...
关于NLP相关技术全部在这里：预训练模型、信息抽取、文本生成、知识图谱、对话系统

我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习.其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学 ...
关于NLP相关技术全部在这里：预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学...

大家都知道NLP近几年非常火,而且发展也特别快.那些耳熟的BERT.GPT-3.图神经网络.知识图谱等技术实际上也就是这几年发展起来的,特别像图神经网络在这两年间取得了飞速的发展.我们正处在信息爆炸的 ...
详解NLP的4大研究方向：训练模型、信息抽取、文本生成、知识图谱、对话系统技术

我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习.其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学 ...
【信息抽取】NLP中关系抽取的概念，发展及其展望

事物.概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中.为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开. 然而,随着互联 ...
【文本信息抽取与结构化】目前NLP领域最有应用价值的子任务之一

常常在想,自然语言处理到底在做的是一件什么样的事情?到目前为止,我所接触到的NLP其实都是在做一件事情,即将自然语言转化为一种计算机能够理解的形式.这一点在知识图谱.信息抽取.文本摘要这些任务中格外明 ...
【NLP】如何利用BERT来做基于阅读理解的信息抽取

信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成计算机能够处理的结构,实体抽取.关系抽取.事件抽取等都属于信息抽取的范畴.在NLP领域,信息抽 ...
ACL2021 | 信息抽取相关论文

一.实体抽取 " 实体抽取主要涉及嵌套NER.非连续NER.中文&多模NER.少样本NER.实体标准化.实体分类等: 嵌套&非连续NER A Span-Based Model ...
超全必读！NLP 事件抽取综述（下）

NewBeeNLP公众号原创出品公众号专栏作者 @lucy 北航博士在读 · 文本挖掘/事件抽取方向前情提要: 超全必读!事件抽取综述(上) 超全必读!事件抽取综述(中) 本系列文章主要分享近年 ...