面向知识图谱的信息抽取
面向知识图谱的信息抽取
随着计算机技术和互联网的飞速发展和知识互联时代的到来,人们期寄着构建一个更加智能的、机器可理解可计算的万维网。知识图谱的概念逐渐出现在人们视野中。知识图谱在语义处理、开放处理等功能方面都显现出很强的能力,在智能推荐、问答和对话系统以及大数据分析和决策等应用中也体现出越来越重要的价值。
知识图谱预计将在互联网知识互联的实现过程中起到中流砥柱的作用。因此,在汉斯出版社《数据挖掘》期刊中,有论文首先以知识图谱的构建框架为背景。探讨信息抽取研究的意义;然后从MUC、ACE和ICDM三个国际测评会议的角度回顾信息抽取的发展历史;接着,基于面向限定域和开放域两个方面,介绍信息抽取的关键技术,包括实体抽取技术、关系抽取技术和属性抽取技术。
知识图谱是知识工程在现今大数据阶段的一个标志性工具。知识工程是将人工智能的原理和方法用于构建大规模知识库。大数据知识工程实现了对数据中的语义,包括隐含语义的挖掘,使数据成为了智慧数据,其目标是自动或半自动地获取知识,融合碎片化知识,然后建立基于知识的系统最终达到为一众应用(例如,语义搜索系统、智能推荐系统、问答和对话系统以及大数据分析与决策)提供互联网智能知识服务的目的。
知识图谱的构建经历了人工构建和群体构建(众包),现在自动构建技术成为了各个业界的研究热点。知识图谱构建的两个基本构造是“实体–关系–实体”三元组和“实体–属性(值)”键值对的构建。实体通过它们之间的关系连接在一起形成图数据库。知识图谱的构建从数据来源分类,可分为面向结构化数据、面向半结构化数据以及面向非结构化数据的知识图谱构建。
由于知识图谱的构建过程是通过以结构化形式描述客观世界中的概念、实体以及其关系开始的,概念、实体、关系等信息提取的准确性对构建过程至关重要,信息丢失、冗余、重叠往往是知识图谱构建面临的最大挑战。作为知识图谱构建的第一步,信息抽取是得到候选知识单元的关键。信息抽取的完整度、准确度直接显性影响后续知识图谱构建步骤的质量和效率以及最终知识图谱的质量。
面向知识图谱的信息抽取与传统信息抽取有很大区别。面向知识图谱的信息抽取大多面向开放域而不再是限定领域。同时,随着维基百科等知识库的出现,知识图谱的数据源从有限的文本类型扩展为多源、异构、语义结构复杂的海量数据。因此,信息抽取的核心技术从单一的文本分析变为复杂的知识发现、知识链接等,并在新的应用场景和领域中对现有技术和实现方法提出了新的挑战问题。
信息抽取作为构建知识图谱的基础技术,实现了从大规模数据中获取结构化的命名实体及其属性或关联信息。同时,由于具有多样化的实现方法,扩充了信息抽取技术的应用领域和场景,也提升了对信息抽取技术研究的价值和必要性的认可度。
文章来源:https://doi.org/10.12677/hjdm.2020.104030