【NLP】如何利用BERT来做基于阅读理解的信息抽取

2024-07-29 23:59:14

信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成计算机能够处理的结构，实体抽取、关系抽取、事件抽取等都属于信息抽取的范畴。在NLP领域，信息抽取的应用场景十分的广泛，是一个非常重要的基础任务。

作者&编辑 | 小Dream哥

1 传统的信息抽取

信息抽取是将非结构化的信息转化为结构化信息的过程，可以分为三类：

命名实体识别（NER）：从文本中抽取人物、机构、文件名等实体。

关系抽取（RE）：得到实体后，抽取实体间的关系，一般抽取得到一个（实体，关系，实体）的三元组。

事件抽取：抽取多个实体和事件关系，一般得到一个trigger和多个arguments的多元组。

很多时候，信息抽取会包括上面的几种，例如上面的三元组抽取，会包括实体抽取和关系抽取。传统的做法包括pipline和joint方法：

pipline方法：先抽取实体再抽取关系，就像一个流水线一样。这种方法容易在关系抽取时引入实体抽取时的误差，从对整体效果造成不好的影响。

joint方法：即通过类似于端到端的方法，一次性抽取出实体和关系，避免误差的累积。

但是上述两种方法都无法处理一些复杂的问题，例如，“乔布斯在1977年至1983年担任了苹果公司的CEO，在1986年至1996年担任皮克斯动画工作室的CEO”。这里存在7个实体，相互间都有关系，非常复杂。传统的信息抽取方法难以处理。

今天我们介绍基于阅读理解的信息抽取，能够较好的处理一些复杂的问题，特别是在抽取一些比较长的信息时，效果比较明显。

2 基于阅读理解的信息抽取

Java笔记(1)

恨台上卿卿,或台下我我,不是我跟你. --似是故人来 jshell jdk9开始就,是一个REPL得工具. 按照道理这个东西是在bin下得,不知道为什么没有啊这...我不弄了先.继续往下看. 结构化 ...
万字综述，GNN在NLP中的应用，建议收藏慢慢看

来自:图与推荐今天为大家解读的是由京东硅谷研发中心首席科学家吴凌飞博士等研究者最新发表的GNN for NLP综述,几乎覆盖了围绕NLP任务的所有GNN相关技术,是迄今为止GNN for NLP领域 ...
传统实体店、连锁店为什么必须结合社群营销？|实体店|顾客|社群

打开腾讯新闻,查看更多图片 > 上期我们分享了企业为什么要做社群营销,同时我讲到,最适合做社群营销的应该是中小商家和普通大众.今天我们就来讲讲为什么实体店.连锁店也必须要做社群营销?怎么做效果最 ...
【NLP】信息抽取

来自:CS的陋室这篇同样是课程的系列笔记(深蓝学院).上一节讲的观点分析,即分析某个人对某件事情的评价,好坏,怎么好或者怎么坏,但是问题来了,我们如何识别这些人评价的具体是什么内容呢,举一个类似的问 ...
“元技术”塑造新闻业发展新图景

截至2021年10月,社交媒体平台脸书(Facebook)的全球用户已超过29亿人,占全球总人口的37.18%,平均每2.7个人中就有一个人使用脸书.若除去无法使用通讯工具的儿童和中老年群体,脸书的全 ...
浅析深度学习在实体识别和关系抽取中的应用

选择"星标"公众号重磅干货,第一时间送达! 命名实体识别命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其 ...
墨家《小取》补释义（4-2）

正文 *注:本节侧重"最字-描述事件"具足的"比附"比附结构视角下展开论述主客体技术构成机制. 作为墨家主客体技术论述机制,务必是要从<经上>到&l ...
做语文阅读理解题的最好方法就在这里，可以提高孩子语文考试成绩

做语文阅读理解题的最好方法就在这里，可以提高孩子语文考试成绩
做英语阅读理解总遇到生僻词怎么办？教你猜词十招！

英语阅读理解生僻单词太多怎么办?现在就告诉你猜词十大招,帮助同学们英语考试能拿到高分. 01 构词法阅读中常常会遇到一些由熟悉的单词派生或合成的新词.掌握构词法对猜测词义很有帮助.如:unfores ...
做语文阅读理解得学点技巧，看过来

做语文阅读理解得学点技巧，看过来
这个顺口溜帮你做语文阅读理解——文章题目含义、作用

这个顺口溜帮你做语文阅读理解——文章题目含义、作用
关于NLP相关技术全部在这里：预训练模型、信息抽取、文本生成、知识图谱、对话系统

我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习.其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学 ...
NLP之WE之Skip-Gram：基于TF利用Skip-Gram模型实现词嵌入并进行可视化、过程全记录

NLP之WE之Skip-Gram:基于TF利用Skip-Gram模型实现词嵌入并进行可视化输出结果代码设计思路代码运行过程全记录 3081 originated -> 12 as 3081 ...
小学阅读理解失分多，不妨这样做

小学阅读理解失分多，不妨这样做
菜鸟记518-监考表查询不方便？利用切片器做个简单的查询器如何？

2020还剩三天,愿一切安好各位朋友早上好,小菜继续和您分享经验之谈,截止今日小菜已分享500+篇经验之谈,可以文章编号或关键词进行搜索. 微信推送规则发生改变,如果您想看到小菜每个工作日的经验之谈 ...
怎么提高阅读理解？记住一句口诀，做题有思路，不容易丢分

怎么提高阅读理解？记住一句口诀，做题有思路，不容易丢分

【NLP】如何利用BERT来做基于阅读理解的信息抽取

相关推荐