【NLP-NER】什么是命名实体识别？

2024-05-05 22:20:43

命名实体识别（Named Entity Recognition，NER）是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。

命名实体识别的准确度，决定了下游任务的效果，是NLP中非常重要的一个基础问题。

作者&编辑 | 小Dream哥

1 命名实体识别是什么？

要了解NER是一回什么事，首先要先说清楚，什么是实体。要讨论实体的理论概念，可能会花上一整天的时间，我们不过多纠缠。

简单的理解，实体，可以认为是某一个概念的实例。

例如，“人名”是一种概念，或者说实体类型，那么“蔡英文”就是一种“人名”实体了。“时间”是一种实体类型，那么“中秋节”就是一种“时间”实体了。

所谓实体识别，就是将你想要获取到的实体类型，从一句话里面挑出来的过程。

小明在北京大学的燕园看了

PER ORG LOC

中国男篮的一场比赛

ORG

如上面的例子所示，句子“小明在北京大学的燕园看了中国男篮的一场比赛”，通过NER模型，将“小明 ”以PER，“北京大学”以ORG，“燕园”以LOC，“中国男篮”以ORG为类别分别挑了出来。

2 命名实体识别的数据标注方式

NER是一种序列标注问题，因此他们的数据标注方式也遵照序列标注问题的方式，主要是BIO和BIOES两种。这里直接介绍BIOES，明白了BIOES，BIO也就掌握了。

先列出来BIOES分别代表什么意思：

B，即Begin，表示开始

I，即Intermediate，表示中间

E，即End，表示结尾

S，即Single，表示单个字符

O，即Other，表示其他，用于标记无关字符

将“小明在北京大学的燕园看了中国男篮的一场比赛”这句话，进行标注，结果就是：

[B-PER，E-PER，O, B-ORG，I-ORG，I-ORG，E-ORG，O，B-LOC，E-LOC，O，O，B-ORG，I-ORG，I-ORG，E-ORG，O，O，O，O]

那么，换句话说，NER的过程，就是根据输入的句子，预测出其标注序列的过程。

3 命名实体识别的方法介绍

1）HMM和CRF等机器学习算法

HMM和CRF很适合用来做序列标注问题，早期很多的效果较好的成果，都是出自这两个模型。两种模型在序列标注问题中应用，我们在之前的文章中有介绍，感兴趣的同学可以看下如下链接的文章：

【NLP】用于语音识别、分词的隐马尔科夫模型HMM

【NLP】用于序列标注问题的条件随机场（Conditional Random Field, CRF）

2）LSTM+CRF

目前做NER比较主流的方法就是采用LSTM作为特征抽取器，再接一个CRF层来作为输出层，后面我们用专门的文章来介绍这个模型。如下图所示：

3）CNN+CRF

CNN虽然在长序列的特征提取上有弱势，但是CNN模型可有并行能力，有运算速度快的优势。膨胀卷积的引入，使得CNN在NER任务中，能够兼顾运算速度和长序列的特征提取，后面我们用专门的文章来介绍这个模型。

4）BERT+（LSTM）+CRF

BERT中蕴含了大量的通用知识，利用预训练好的BERT模型，再用少量的标注数据进行FINETUNE是一种快速的获得效果不错的NER的方法，后面我们用专门的文章来介绍这个模型。

总结

NER是一个非常基础，但是非常重要的任务，今天先做一个整体的介绍。后续小Dream哥会相继详细的介绍上述几种常见的NER模型。在具体的模型中，大家能够更为细致的体会NER任务的真正作用和意涵。

任务方案思考：序列标注（NER）篇

0 小系列初衷计划篇章: (已完成)文本分类篇.针对NLP文本分类任务. 序列标注(NER)篇.针对命名实体识别.序列标注任务. 文本匹配篇.针对语义相似度计算.向量匹配等问题. 人工特征学习篇.针 ...
浅析深度学习在实体识别和关系抽取中的应用

选择"星标"公众号重磅干货,第一时间送达! 命名实体识别命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其 ...
动态词向量在序列标注任务中的应用与实践

摘要:动态词向量会根据上下文动态的进行变化,相比于传统的 Word2Vec 等静态词向量,能更好的处理 NLP 任务中的 "一词多义" 的现象.本文介绍了动态词向量在序列标注任务上 ...
赛尔原创 | N-LTP：基于预训练模型的中文自然语言处理平台

论文名称:N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretrained Models 论文作者:车万 ...
ACL 2021 | 结构化知识蒸馏方法

本文介绍了上海科技大学屠可伟课题组与阿里巴巴达摩院的一项合作研究,提出了在结构预测问题上一种较为通用的结构化知识蒸馏方法.该论文已被 ACL 2021 接受为长文. 论文标题: Structura ...
中文NER碎碎念—聊聊词汇增强与实体嵌套

来自:丁香园大数据前言得益于BERT的加持,Encoder搭配CRF的结构在中文NER上通常都有不错的表现,而且BERT使用方便,可以迅速微调上线特定服务:在好的基准条件下,我们也能把精力放在更细 ...
【NLP实战系列】Tensorflow命名实体识别实战

实战是学习一门技术最好的方式,也是深入了解一门技术唯一的方式.因此,NLP专栏计划推出一个实战专栏,让有兴趣的同学在看文章之余也可以自己动手试一试. 本篇介绍自然语言处理中一种非常重要的任务:命名实体 ...
【每周NLP论文推荐】 NLP中命名实体识别从机器学习到深度学习的代表性研究

NER是自然语言处理中相对比较基础的任务,但却是非常重要的任务.在NLP中,大部分的任务都需要NER的能力,例如,聊天机器人中,需要NER来提取实体完成对用户输入的理解:在信息提取任务中,需要提取相应 ...
搜索中的命名实体识别

最近在做的工作主要是在命名实体识别上,那么在搜索场景,命名实体识别是一个什么样的存在,又是怎么实施落地的,今天来给大家具体讲讲.(额,又是一篇搜索和NLP交叉的文章,由于更偏向NLP的通式通法,所以我 ...
【NLP-NER】如何使用BERT来做命名实体识别

命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务.NER是信息提取.问答系统.句法分析.机器翻译等众多NLP任务的重要基础工具. 上一期我们详细介绍 ...
【NLP-NER】命名实体识别中最常用的两种深度学习模型

命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务.NER是信息提取.问答系统.句法分析.机器翻译等众多NLP任务的重要基础工具. 上一期我们介绍了N ...
【学术论文】一种面向微博文本的命名实体识别方法

命名实体识别(Named Entity Recognition)是指识别文本中的各种实体,如人名.地名.机构名或其他特有标识[1],是自然语言处理(Natural Language Processin ...
最全斗拱命名和识别指南 | 宋式清式斗拱有什么不同

斗栱在古建筑木构架体系中,是一个相对独立的门类,根据它们在建筑物中所在的位置和作用,可以分为很多种.根据宋代和清代建筑规则的不同,可以分为宋式斗拱和清式斗拱.根据斗栱在建筑物中所处的位置不同,可以将斗 ...
康孟珍副研究员团队：基于语义融合与模型蒸馏的农业实体识别（2021年第1期）

. 引用格式:李亮德, 王秀娟, 康孟珍, 华净, 樊梦涵. 基于语义融合与模型蒸馏的农业实体识别[J]. 智慧农业(中英文), 2021, 3 (1): 118-128. LI Liangde, W ...
【每周NLP论文推荐】掌握实体关系抽取必读的文章

欢迎来到<每周NLP论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 实体关系抽取作为信息抽取领域的重要研究课题 ...

【NLP-NER】什么是命名实体识别？

相关推荐