基于数据中台的图谱构建
引言
随着移动互联网和数字化转型渗透到各行各业,万物互联成为可能,这种互联不仅产生了爆炸式的数据,也恰好形成了分析关系的有效原料。基于图谱的分析技术逐步成熟,使得互联网时代个体之间的关系分析成为数字化经营、智能分析中重要的一部分,成为下一代数据中台最核心的技术,携手AI技术,共同推进企业实现数字化转型,最终达到智能化知识挖掘和管理的水平。
在数据中台的整体规划中,大数据平台提供了最核心的数据收集、整合、处理和计算能力,将原始的业务数据从数据湖中提炼出来,按照规范的建模方法论将数据按照业务领域有序组织,并进一步将隐性的知识通过显性的形式构建成图谱模型,然后导入图数据库这样的服务组件来为上层应用提供特化的图计算服务,例如关联检索、图特征计算、图的分析算法等。
01
什么是图谱
图是一种知识的表述形式,“图”包含两个部分:1、节点(node),节点通常用来表示现实世界中的事物比如人、地名、概念、实体等;2、边(edge),边也称为关系,用来表达不同节点之间的某种联系或约束。
图谱的逻辑结构分为模式层与数据层两个层次。
模式层构建在数据层之上,基于对业务的深度理解,存储经过提炼的知识,通过规范化的数据来表达图谱模型,是图谱构建的核心。
数据层是由一系列的事实组成。如果用(节点1,关系,节点2)、(节点、属性,属性值)这样的三元组来表达事实。
仍以上图的例子来说名:模式层是“实体-关系-实体”,“实体-属性-属性值”;数据层则是:“张三-朋友-李四”,“XX公司-公司电话-131X”。
图谱的构建形式反映了人类对世界的认知方式,非常适合整合非结构化数据,并从零散的信息碎片中发现知识,进而帮助用户实现业务智能化。
02
图谱的应用场景
图谱技术最早广泛应用于搜索引擎和问答交互领域。例如在百度搜索框中输入 “王健林的儿子”,搜索引擎会准确返回王思聪的信息,说明百度预先建立了大量知识谱图,使得搜索引擎能推理出用户要找的是“王思聪”,而不是返回关键词为 “王健林的儿子” 的网页。
图谱在金融行业有着广泛的应用场景。金融业以领域内部数据为主,通常规模巨大,知识结构复杂,对数据质量要求高,需要融合多来源的数据,并且应用形式丰富全面,要求有较强的可解释性。通常会用于授信审批、贷后监控、异常交易监控、反欺诈、反洗钱、客户经营、市场推广、客户推荐等多个方面。
1.反欺诈
反欺诈是金融行业中非常重要的风控环节,其难点在于如何把不同来源的数据整合到一起,构建反欺诈策略引擎,借助图谱数据进行知识推理和规则检验,有效识别出异常信息和欺诈行为。
例如客户张三和李四分别申请某银行信用卡和无抵押的消费贷,他们填写的是同一个公司电话,但填写的公司名完全不一样,当图谱就能将张三和李四的信息关系起来时,“一致性验证”规则会触发,并提示这是一个不一致的风险点。图谱的优势就是能够将隐藏在非常复杂关系网络里的作案模式清晰地展示出来。
2.反洗钱
交易关联图谱图谱在反洗钱方面也能够发挥重要的作用,结合关联图谱可对找出的可疑账户进行扩展,识别出与其关联的团伙,分析异常关系、隐藏关系和多个实体间的“共同关联信息”等,合并形成由节点和边组成的风险子图,如资金闭环、洗钱的聚合分散模式等,使审核人员能快速研判账户的可疑行为并形成可疑交易报告。
03
图谱的构建方法
图谱的构建过程,是指从原始的数据(包括结构化、半结构化、非结构化数据)中提取知识要素,并将其存入知识库的数据层和模式层。其中会采用知识抽取、知识融合、模型构建、知识推理、质量评估和知识更新等技术手段。
1.数据收集和预处理
企业级数据中台的建设,实现了全域数据的汇聚,经过结构化处理和数据治理,完成了业务实体的数据对齐、知识抽取和属性整合,并通过OneID体系打通数据孤岛,能够大大加快图谱构建的基础工作,使得构建者可以把精力集中在图谱模型的设计上。
2.图谱模型设计
图谱的模型设计是不仅需要建模人员对业务有较深的理解,也需要对未来可能的变化有一定的预估,使设计能够贴近现状并且高效。类似于传统数据库的范式,图谱设计也必须遵循一些原则:
业务原则:一切从业务逻辑出发,用户通过观察图谱的设计也能够很容易地推测其背后的业务逻辑,而且设计时要预留未来业务可能的变化;
效率原则:指设计的图谱模型要尽量经量化,审慎评估哪些数据放在图谱、哪些数据不放在图谱;
分析原则:不要把跟图谱应用无关的节点放在图谱中;
冗余原则:重复性信息不应直接放在图谱模型中,可以放到传统数据中。
图谱模型虽然类似于关系型数据库的ER模型,但仍存有差异的。在关系型数据库中,关系是通过多张相关表的主键和外键匹配连接得到的,而在图谱模型中,关系与节点数据同等重要,避免使用特殊属性来表示实体之间的连接。
关系型数据库的模型示意图
图谱模型示意图
3.把数据存入图谱
通常来说,我们会选择使用图数据库来存放图谱数据,图数据库是支持以图的结构来表示和存储数据的数据库,其本质上是一种非关系型数据库。与传统关系型数据库相比,除了以更自然的方式表达节点机器关联关系以外,还具有特殊的优势,其灵活的数据模型能够适应业务变化需求,图查询语言轻松实现复杂关系网络的分析,遍历关系网络和抽取信息的能力非常强,并且在图谱规模庞大时仍能支持多层复杂关联而保持较低的时间复杂度。
目前,大规模图数据库支持分布式存储,单节点能够支持亿级的点边数据量,而且都支持通过批量和实时增量的方式加载和更新图谱数据。
4.图谱应用服务的开发
在构建完图谱数据之后,就可以利用图谱来进一步挖掘隐含的知识,推导出新的关系。从应用模式来说,有两种不同的场景:基于规则的和基于算法的。鉴于目前AI技术的成熟度水平有限,基于规则的应用还是在垂直领域中占据主导地位(例如第2节示例中的“一致性验证”规则),但是随着数据量的增加以及大数据技术的成熟,基于算法模型的应用会逐步发挥更大的价值和作用。
04
小结
图谱不只是简单地将数据组织成一张数据网络,而是融合了从数据到知识的过程,利用规则、算法、推理等智能化支撑,为构建新的数据服务能力提供可能。
数据中台的目标是将来自于不同业务条线且复杂的数据整合起来,进行高效、有价值的分析和应用。基于其低成本高效率的数据服务能力,结合数据治理,能够使得图谱的构建变得简单且高效,通过应用领域知识,将数字化转型提升到知识化转型,释放知识化带来的红利,全面提升企业在智能化时代的竞争力。