联手自然语言处理专委会:“知识图谱”术语发布 | CCF术语快线
本期发布术语热词:知识图谱(Knowledge Graph)。知识图谱是大数据时代的知识工程集大成者,是符号主义与连接主义相结合的产物,是实现认知智能的基石。
开篇导语:
本期发布术语热词:知识图谱(Knowledge Graph)。知识图谱是大数据时代的知识工程集大成者,是符号主义与连接主义相结合的产物,是实现认知智能的基石。知识图谱并非全新技术和概念,而是多个相关领域不断发展融合的结果,其两个核心基因为人工智能(语义网络、本体)和万维网(语义网、链接数据)。
知识图谱(Knowledge Graph)
作者:王昊奋 (同济大学)
InfoBox:
中文名:知识图谱
外文名:Knowledge Graph
简写:KG
学科:自然语言处理、知识工程、人工智能、万维网
实质:利用图结构建模、识别和推断事物之间的复杂关联关系和沉淀通用或领域知识,本质上可以看作是一种世界模型。
基本简介:
知识图谱并没有统一的定义,一种常用的定义为“知识图谱是一种语义网络(semantic network);网络中的结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系”。一种更为宽泛的定义为“使用图(graph)作为基础表示模型来组织与利用大规模不同类型的数据,并表达明确的通用或领域知识。”
背景与动机:
知识图谱是大数据时代的知识工程集大成者,是符号主义与连接主义相结合的产物,是实现认知智能的基石(如图1)。
图1 人工智能金字塔
知识图谱并非全新技术和概念,而是多个相关领域不断发展融合的结果(如图2所示),其两个核心基因为人工智能(语义网络、本体)和万维网(语义网、链接数据)。
图2 知识图谱相关概念演变
从技术角度而言,知识图谱是人工智能、自然语言处理、(图)数据库、万维网与信息检索等多技术的交叉与融合(如图3所示);其中核心的两个要素为语义化表示的知识和图结构的数据;具体涉及的技术要素则可以分为表示、存储、抽取、融合、推理、问答、分析等七个方面。
图3 知识图谱相关技术
知识图谱的典型应用场景包括语义搜索、智能问答、智能推荐、辅助大数据分析、语言理解、视觉理解、设备互操作等,目前已经在电商、医疗、工业、金融、农业、政府、军事、公共安全等行业得到的广泛应用。做知识图谱一定要有系统工程的思维,若仅把握其中某一方面的技术来做知识图谱会犹如盲人摸象(如图4);知识图谱技术与工程涉及数据、算法、工具和系统四个维度。
图4 知识图谱系统工程观
研究概况:
随着知识图谱在各行业的应用落地,知识图谱技术的相关研究得到了大量学者的持续关注,主要包括以下几方面:1)知识表示学习;2)知识获取与补全;3)知识融合;4)知识存储与图计算;5)知识推理;6)基于知识图谱的问答[2]。
知识表示学习
知识表示学习可以分为基于翻译距离模型(translational distance models)的方法和基于语义匹配模型(semantic matching models)的方法[3]。
知识获取与补全
知识获取的主要任务包括实体识别、关系抽取、属性抽取及事件抽取等。近十年来知识获取相关研究主要聚焦于基于深度学习的方法,尤其是近三年以来,基于大规模预训练语言模型的方法取得了STOA效果[4];关系抽取还经常使用远距离监督学习的方法自动进行语料生成。知识图谱补全包括基于嵌入的排序补全算法、关系路径推理算法、基于深度强化学习的算法和基于规则的推理算法等[5]。
知识融合
知识融合相关研究内容包括开源知识融合、知识图谱内部知识融合、多知识图融合、多语言知识融合以及多模态知识融合[6]。
知识存储与图分析计算
知识存储与图分析计算相关研究主要侧重于RDF图谱数据管理、图数据查询、图谱计算框架等方面[7]。
知识推理
面向知识图谱的知识推理通常可以分为基于规则的推理、基于知识表示学习的推理,基于神经网络的推理和混合推理[8]
知识应用
知识图谱应用方面的研究包括基于知识图谱的语义检索、智能推荐、知识问答等[1][9]。
知识图谱的研究趋势包括:(1)深度知识的表示与获取;(2)数据稀疏场景下的知识自动获取;(3)多模态知识图谱;(4)语言预训练与小样本学习;(5)事件与事理图谱。
参考文献:
术语工委及术语平台介绍:
计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。
术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。
新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。
计算机术语审定工作委员会
主任:
刘挺(哈尔滨工业大学)
副主任:
王昊奋(同济大学)
李国良(清华大学)
主任助理:
李一斌(上海海乂知信息科技有限公司)
执行委员:
丁军(上海海乂知信息科技有限公司)
林俊宇(中国科学院信息工程研究所)
兰艳艳(清华大学)
张伟男(哈尔滨工业大学)