AI时代你需要知道的:知识图谱技术原理(必读)
知识图谱是什么?
知识图谱最早由谷歌发布,为了提升搜索引擎返回答案的质量以及用户查询的效率,在知识图谱辅助下,搜索引擎可以洞察到用户查询背后的一个语义信息,然后返回更为精准结构化的信息,从而更大可能的去满足用户的一个查询需求。
当我们进行搜索时,搜索结果右侧的联想,来自于知识图谱技术的应用。我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐。个性化推荐作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务,也来自于知识图谱技术的应用。搜索、地图、个性化推荐、互联网、风控、银行……越来越多的应用场景,都越来越依赖知识图谱,可以说无处不在。
知识图谱应用场景
智能搜索
比如说谷歌,我们搜索A的时候,谷歌在最初的分词会分出,与A相关的A1、A2和A3,A3就是A的关键词,在引入了知识图谱之后,搜索引擎就会明白A和A1、A2的试题关系,,并且能把A2的一个详细的一个表给反映出来,也就是用户画像。
2、团伙欺诈作案的风险规避
银行信用卡的申请欺诈包括个人欺诈、团伙欺诈、中介包装、伪冒资料等,是指申请者使用本人身份或他人身份或编造、伪造虚假身份进行申请信用卡、申请贷款、透支欺诈等欺诈行为。
欺诈者一般会共用合法联系人的一部分信息,如电话号码、联系地址、联系人手机号等,并通过它们的不同组合创建多个合成身份。比如:3个人仅通过共用电话和地址两个信息,可以合成9个假名身份,每个合成身份假设有5个账户,总共约45个账户。假设每个账户的信用等级为20000元,那么银行的损失可能高达900000元。由于拥有共用的信息,欺诈者通过这些信息构成欺诈环。
3、异常分析
知识图谱的结构一般来说是比较稳定的,然后如果有一段时间这个图的结构,或者说子图的结构突然发生了一个剧烈的变化,这个图就可能产生某种异常,作为风险的判断。
4、精准营销
电商平台 给全网用户打标签,通过标签判断用户属性,买某一类手机的用户,他可能也会经常去买另一类的用品,但可能经常去买另一个品牌的手机的用户,他不会去购买这种产品,我们通过图就可以将这种关系给找出来,然后从而实现精准营销的一个目的。
一个完整的知识图谱的构建包含以下几个步骤:
定义具体的业务问题
数据的收集 & 预处理
知识图谱的设计
把数据存入知识图谱
上层应用的开发,以及系统的评估。
知识图谱特点
1、用户搜索次数越多,范围越广,搜索引擎就能获取越多信息和内容。
2、赋予字串新的意义,而不只是单纯的字串。
3、融合了所有的学科,以便于用户搜索时的连贯性。
4、为用户找出更加准确的信息,作出更全面的总结并提供更有深度相关的信息。
5、把与关键词相关的知识体系系统化地展示给用户。
6、用户只需登录Google旗下60多种在线服务中的一种就能获取在其他服务上保留的信息和数据。
7、Google从整个互联网汲取有用的信息让用户能够获得更多相关的公共资源。
知识图谱的数据类型
1、结构化数据
关系数据库
2、半结构化数据
百度百科
3、非结构化数据
它本身一个整体才会是一个物品,比如说图片,比如说音频,然后比如说视频,他们都是这种非结构化的数据。
知识图谱架构
通过信息抽取,我们从原始语料里面我们提取出了实体关系和属性的知识要素,然后经过知识融合,我们消除了实体的支撑项和实体对象之间的奇异,得到一系列基本的事实表达。但是这里需要注意到的是,事实本身并不等于知识,要想最终获得结构化网络化的知识体系,我们还需要去经过知识加工、知识更新的一个过程。
知识加工它主要又分为三个部分的内容,一 本体构建、二 知识推理、三 质量评估。
知识推理的方法里面,它目前经常分成三大类,一类是逻辑规则,一类是知识表达,还有一类是深度学习。因为一般做知识推理,大家主要是做的关系推理,
举个栗子:
比如说微软它的总部位于西雅图,我可以说微软它坐落在西雅图,这是最简单的推理。还有一种叫做度跳推理,比如说梅林达,他是比尔盖茨的配偶,然后比尔盖茨又是微软的主席,微软它又作用于西雅图,我们可以设置这样一个联络的关系,然后变成梅林达她居住在西雅图。这是算法基于概率图的这样的一种概率图模型的这样一个关系推理的一个技术路线,这也是在做关系推理里非常常用的一种算法。
构建知识图谱这个过程的本质,就是让机器形成认知能力,去理解这个世界,这也是人工智能的价值所在。
更多机器学习内容:《安全数据科学》