基于数据中台的图谱构建

引言

随着移动互联网和数字化转型渗透到各行各业,万物互联成为可能,这种互联不仅产生了爆炸式的数据,也恰好形成了分析关系的有效原料。基于图谱的分析技术逐步成熟,使得互联网时代个体之间的关系分析成为数字化经营、智能分析中重要的一部分,成为下一代数据中台最核心的技术,携手AI技术,共同推进企业实现数字化转型,最终达到智能化知识挖掘和管理的水平。

在数据中台的整体规划中,大数据平台提供了最核心的数据收集、整合、处理和计算能力,将原始的业务数据从数据湖中提炼出来,按照规范的建模方法论将数据按照业务领域有序组织,并进一步将隐性的知识通过显性的形式构建成图谱模型,然后导入图数据库这样的服务组件来为上层应用提供特化的图计算服务,例如关联检索、图特征计算、图的分析算法等。

01

什么是图谱

图是一种知识的表述形式,“图”包含两个部分:1、节点(node),节点通常用来表示现实世界中的事物比如人、地名、概念、实体等;2、边(edge),边也称为关系,用来表达不同节点之间的某种联系或约束。

图谱的逻辑结构分为模式层与数据层两个层次。

模式层构建在数据层之上,基于对业务的深度理解,存储经过提炼的知识,通过规范化的数据来表达图谱模型,是图谱构建的核心。

数据层是由一系列的事实组成。如果用(节点1,关系,节点2)、(节点、属性,属性值)这样的三元组来表达事实。

仍以上图的例子来说名:模式层是“实体-关系-实体”,“实体-属性-属性值”;数据层则是:“张三-朋友-李四”,“XX公司-公司电话-131X”。

图谱的构建形式反映了人类对世界的认知方式,非常适合整合非结构化数据,并从零散的信息碎片中发现知识,进而帮助用户实现业务智能化。

02

图谱的应用场景

图谱技术最早广泛应用于搜索引擎和问答交互领域。例如在百度搜索框中输入 “王健林的儿子”,搜索引擎会准确返回王思聪的信息,说明百度预先建立了大量知识谱图,使得搜索引擎能推理出用户要找的是“王思聪”,而不是返回关键词为 “王健林的儿子” 的网页。

图谱在金融行业有着广泛的应用场景。金融业以领域内部数据为主,通常规模巨大,知识结构复杂,对数据质量要求高,需要融合多来源的数据,并且应用形式丰富全面,要求有较强的可解释性。通常会用于授信审批、贷后监控、异常交易监控、反欺诈、反洗钱、客户经营、市场推广、客户推荐等多个方面。

1.反欺诈

反欺诈是金融行业中非常重要的风控环节,其难点在于如何把不同来源的数据整合到一起,构建反欺诈策略引擎,借助图谱数据进行知识推理和规则检验,有效识别出异常信息和欺诈行为。

例如客户张三和李四分别申请某银行信用卡和无抵押的消费贷,他们填写的是同一个公司电话,但填写的公司名完全不一样,当图谱就能将张三和李四的信息关系起来时,“一致性验证”规则会触发,并提示这是一个不一致的风险点。图谱的优势就是能够将隐藏在非常复杂关系网络里的作案模式清晰地展示出来。

2.反洗钱

交易关联图谱图谱在反洗钱方面也能够发挥重要的作用,结合关联图谱可对找出的可疑账户进行扩展,识别出与其关联的团伙,分析异常关系、隐藏关系和多个实体间的“共同关联信息”等,合并形成由节点和边组成的风险子图,如资金闭环、洗钱的聚合分散模式等,使审核人员能快速研判账户的可疑行为并形成可疑交易报告。

03

图谱的构建方法

图谱的构建过程,是指从原始的数据(包括结构化、半结构化、非结构化数据)中提取知识要素,并将其存入知识库的数据层和模式层。其中会采用知识抽取、知识融合、模型构建、知识推理、质量评估和知识更新等技术手段。

1.数据收集和预处理

企业级数据中台的建设,实现了全域数据的汇聚,经过结构化处理和数据治理,完成了业务实体的数据对齐、知识抽取和属性整合,并通过OneID体系打通数据孤岛,能够大大加快图谱构建的基础工作,使得构建者可以把精力集中在图谱模型的设计上。

2.图谱模型设计

图谱的模型设计是不仅需要建模人员对业务有较深的理解,也需要对未来可能的变化有一定的预估,使设计能够贴近现状并且高效。类似于传统数据库的范式,图谱设计也必须遵循一些原则:

  • 业务原则:一切从业务逻辑出发,用户通过观察图谱的设计也能够很容易地推测其背后的业务逻辑,而且设计时要预留未来业务可能的变化;

  • 效率原则:指设计的图谱模型要尽量经量化,审慎评估哪些数据放在图谱、哪些数据不放在图谱;

  • 分析原则:不要把跟图谱应用无关的节点放在图谱中;

  • 冗余原则:重复性信息不应直接放在图谱模型中,可以放到传统数据中。

图谱模型虽然类似于关系型数据库的ER模型,但仍存有差异的。在关系型数据库中,关系是通过多张相关表的主键和外键匹配连接得到的,而在图谱模型中,关系与节点数据同等重要,避免使用特殊属性来表示实体之间的连接。

关系型数据库的模型示意图

图谱模型示意图

3.把数据存入图谱

通常来说,我们会选择使用图数据库来存放图谱数据,图数据库是支持以图的结构来表示和存储数据的数据库,其本质上是一种非关系型数据库。与传统关系型数据库相比,除了以更自然的方式表达节点机器关联关系以外,还具有特殊的优势,其灵活的数据模型能够适应业务变化需求,图查询语言轻松实现复杂关系网络的分析,遍历关系网络和抽取信息的能力非常强,并且在图谱规模庞大时仍能支持多层复杂关联而保持较低的时间复杂度。

目前,大规模图数据库支持分布式存储,单节点能够支持亿级的点边数据量,而且都支持通过批量和实时增量的方式加载和更新图谱数据。

4.图谱应用服务的开发

在构建完图谱数据之后,就可以利用图谱来进一步挖掘隐含的知识,推导出新的关系。从应用模式来说,有两种不同的场景:基于规则的和基于算法的。鉴于目前AI技术的成熟度水平有限,基于规则的应用还是在垂直领域中占据主导地位(例如第2节示例中的“一致性验证”规则),但是随着数据量的增加以及大数据技术的成熟,基于算法模型的应用会逐步发挥更大的价值和作用。

04

小结

图谱不只是简单地将数据组织成一张数据网络,而是融合了从数据到知识的过程,利用规则、算法、推理等智能化支撑,为构建新的数据服务能力提供可能。

数据中台的目标是将来自于不同业务条线且复杂的数据整合起来,进行高效、有价值的分析和应用。基于其低成本高效率的数据服务能力,结合数据治理,能够使得图谱的构建变得简单且高效,通过应用领域知识,将数字化转型提升到知识化转型,释放知识化带来的红利,全面提升企业在智能化时代的竞争力。

(0)

相关推荐

  • ACL 2019论文| 为知识图谱添加注意力机制

    注意力机制(Attention)是近些年来提出的一种改进神经网络的方法,在图像识别.自然语言处理和图网络表示等领域都取得了很好的效果,可以说注意力机制的加入极大地丰富了神经网络的表示能力. 论文原文: ...

  • 顶会集结 深度解析:医疗 AI如此火爆,NLP如何赋能?

    作者:辰鸿 最近,"医疗+AI"很热门,在此背景下,本文对EMNLP 2020和医学相关的若干文章做了梳理,并对部分文章进行了解读,洞察研究者们在医学NLP方向上所做的前沿研究工作 ...

  • 沃丰科技GaussMind知识图谱平台构建

    沃丰科技GaussMind知识图谱平台,通过ETL模块连接各个数据源,并进入统一的处理流程,如下图1所示: 多源数据连接:GaussMind知识图谱内置多种格式的数据接入能力.知识图谱数据的三要素,包 ...

  • AI热门领域分析|未来在知识图谱领域还会面临哪些挑战?

    如果未来的智能机器拥有一个大脑,知识图谱就是这个大脑中的知识库,对于大数据智能具有重要意义,将对自然语言处理.信息检索和人工智能等领域产生深远影响. 我们已于2019年1月发布<人工智能之知识图 ...

  • 金融知识图谱的构建与应用

    编辑整理:朱瑞杰 出品平台:DataFunTalk.AI启蒙者 导读:金融机构在过去积累了大量的数据,包括结构化数据和非结构化数据.如何利用这些数据来构建金融知识图谱,并将构造好的知识图谱应用到具体的 ...

  • 行家 | 如何构建高效的知识中心?

    本文来自云问科技联合创始人 COO 茆传羽在华南数谷·2021年客户观察(第五届)数智客服华南峰会上的分享节选 云问科技联合创始人 COO   茆传羽 如何构建高效的知识中心呢? 首先,我们认为应该是 ...

  • CCCF动态 | 大数据知识工程研究进展与发展趋势

    本文从基础理论与关键技术等方面介绍了国内外大数据知识工程领域近些年的发展状况,从知识类型.知识范围.处理技术与应用范围等方面总结了大数据知识工程的总体发展趋势. 引言 知识工程(Knowledge E ...

  • 基于图模型的智能推荐算法学习笔记

    一.基于知识图谱的智能推荐 以知识图谱作为边信息生成推荐的价值在于:一方面可以提供更准确的推荐:另一方面可以对推荐结果进行解释. 知识图谱由实体和关系组成(以电影推荐为例):实体(用户.电影.演员.导 ...

  • 一种基于数据中台的实时欺诈行为识别架构

    在信用卡.消费贷等金融服务场景下,#消费贷款#需要识别客户是否存在欺诈,是否有骗贷行为,审批系统需要根据对用户行为的判断给出拒绝.接受.人工审核的结论. 在电商促销.权益发放等消费场景下,需要判断用户 ...

  • 如何基于DataWorks构建数据中台?

    [提醒:公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看,或者把本号置顶] 正文开始 阿里妹导读:为了应对众多业务部门千变万化的数据需求和高时效性的要求,阿里巴巴首次提出了数据中台的概念, ...

  • 2021年基于数据的5个预测

    根据我们的调查,以及我们在每周圆桌会议上从合作伙伴和客户那里得到的信息,在不稳定的情况下,我们预测,在愿意承担风险的公司中,大部分前景良好改变销售方式,衡量方式和沟通方式.这里有5个基于数据的预测,可 ...

  • 云原生数据中台技术与趋势解读

    数据中台发展至今,大体经历了 4 个重要阶段:数据库 - 数据仓库 - 大数据平台 - 数据中台.每次新的变革,都是为了解决上一阶段存在的问题. 当前,走向云原生成为数据中台的必然和必须. 云原生从何 ...

  • 主数据和数据中台的区别-主数据不属于数据中台建设范畴

    今天在解释下主数据和数据中台的区别.对于主数据和数据中台我在头条前面文章都有专门的描述,可以先参考下我前面发布过的文章.今天重点还是解释下两者的区别. 在讲解区别下,还是先看下两个概念的定义. 主数据 ...

  • 主数据和数据中台的区别

    今天在解释下主数据和数据中台的区别.对于主数据和数据中台我在头条前面文章都有专门的描述,可以先参考下我前面发布过的文章.今天重点还是解释下两者的区别. 在讲解区别下,还是先看下两个概念的定义. 主数据 ...

  • 数据湖和数据中台的区别?

    一.数据湖的定义 维基百科上定义,数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统.它按原样存储数据,而无需事先对数据进行结构化处理.一个数据湖可以存储结构化数据(如关系型数据库中的 ...

  • 基于数据关联的多雷达点迹融合算法研究

    0 引言 现代战争已成为高科技的信息战争,随着反辐射导弹.低空突防.隐身技术和电子对抗技术的发展,仅仅依赖单部的雷达已经无法满足作战需求.目前装备的雷达广泛应用航迹融合技术,但是多雷达组网的点迹融合技 ...

  • 教培行业:OMO业务形态下,如何基于数据提升获客和转化能力?

    诸葛君说:随着在线教育影响力不断扩大,教培行业的环境也发生了变化,更加重视用户体验,更加重视教学效果,更加重视新科技引入,总之,依靠互联网回归教育本质,即有效的学习效果和品牌效应增强.教培行业的竞争力 ...