为什么知识图谱终于火了？｜甲子光年

2024-08-07 03:57:30

如果知识是人类进步的阶梯，知识图谱就是AI进步的阶梯。

作者｜金丝猴

编辑｜甲小姐

设计｜孙佳栋

微信｜甲子光年 (ID:jazzyear)

“知识图谱”相较于AI其他分支，似乎是最后一个热起来的赛道：

「甲子光年」对国内某数据平台上的企业标签进行了统计，国内AI初创企业所涉及的技术标签全部加起来近3000个，其中，“计算机视觉”出现255次，“语音识别”出现81次，“自动驾驶”出现152次，“自然语言处理”188次，“芯片”51次……而“知识图谱”仅出现10次，是所有标签中，出现频次最低的。

也就是说，作为一项AI领域底层技术，知识图谱并不是大部分AI创业者的兴趣所在；作为一个创业方向，这条赛道还远远谈不上拥挤。

不过近来，升温趋势开始出现。

最近一段时间，“知识图谱”这个词被频频提及，做知识图谱的公司开始增多，甚至一些大数据公司开始在自己的名字后面加上这四个字。

部分知识图谱领域创业者向「甲子光年」描述了他们感受到的市场变化：

“2014年、2015年我出去宣传知识图谱，当时大部分人都问我：你是做图片处理的吗？但近两年邀请我去讲知识图谱的会越来越多了，大家对这个技术已经建立了基本的认知。”渊亭科技（DataExa）CEO洪万福说。

“我以前出去谈客户，客户都是搓着手问我有哪些AI技术可以拿来用。而现在客户直接就说：我们需要应用于一套管理XX的知识图谱的系统。”达观数据CEO陈运文说。

为什么知识图谱近来突然火了？

“升温”背后的前世今生

本质原因，是人工智能火了，而深度学习并非放之四海皆管用，人们开始意识到：“知识”是“智能”的前提。

“一个逻辑学家，不需要亲眼见过，或听过大西洋和尼亚加拉大瀑布，他能凭借一滴水推测出它们的存在。所以整个生活就是一个巨大的链条，只要见到其中一环，整个链条的情况就可推想出来。”阿瑟·柯南·道尔有言。

他所描绘的，是人类大脑对知识天然的联想能力，对人类理解世界、学习新知起着至关重要的作用。

如果知识是人类进步的阶梯，知识图谱就是AI进步的阶梯——这正是知识图谱对于AI的核心意义。

什么是知识图谱？

知识图谱（Knowledge Graph）旨在描述客观世界的概念、实体、事件及其之间的关系——简言之，就是谁是谁的“爸爸”，谁是谁的“儿子”，这些概念之间的关系。

全球第一个大规模开放域链接数据项目DBpedia的知识图谱示意图

2012年5月，Google推出Google知识图谱（Google Knowledge Graph），并利用其在搜索引擎中增强搜索结果。这是“知识图谱”名称的由来，也标志着大规模知识图谱在互联网语义搜索中的成功应用。

搜索关键词Google会给出与之相关的详细搜索结果

事实上知识图谱技术渊源已久，只是在不停地换名字而已——从上世纪70年代的“专家系统（Expert System）”，到万维网之父Berners-Lee提出“语义网（Semantic Web）”，再到他后来提出的“链接数据（Linked Data）”，都是知识图谱的前身。

伴随着Web技术的不断演进与发展，人类先后经历了以文档互联为主要特征的“Web 1.0”时代与以数据互联为特征的“Web 2.0”时代，正迈向基于知识互联的“Web 3.0”时代。

可以说，知识图谱的升温，是AI对数据处理和理解需求逐日增加所导致的必然结果，而其发展有赖于专家系统、语言学、语义网、数据库，以及信息抽取等众多领域，是一个交叉融合的产物。

平台巨头纷纷重仓

2012年Google知识图谱一出激起千层浪：微软必应、搜狗、百度等搜索引擎公司在短短一年内纷纷宣布了各自的“知识图谱”产品，如百度“知心”、搜狗“知立方（现更名为‘立知’）”等。

据百度副总裁王海峰介绍，目前百度知识图谱在百度众多产品线中已广泛应用，从2014年上线开始，知识图谱服务规模三年间增长了大约160倍。

搜狗CEO王小川则告诉「甲子光年」：“搜狗是国内首家构建和应用知识图谱的搜索引擎。知识图谱也是搜狗的基础能力，服务于搜索引擎和其他多个产品。”根据搜狗2016年财报显示，其搜索流量急速攀升，尤其移动搜索流量增长70%，背后原因很大程度上因为其将基于知识图谱的AI技术和差异化内容武装到产品。

以社交为主战场的腾讯也利用其数据优势构建了自己的社交知识图谱。腾讯研究院称，其汇总了微信、QQ和公众号超过20万亿次的阅读点击量、数百亿笔支付数据、全年约1300亿次视频点击量、70亿次新闻点击量、四十余万款上线APP等数据。基于这些数据，腾讯构建出的知识图谱可以服务于其众多产品，并在语音搜索、智能问答等新趋势中积蓄势能。

以电商为主战场的阿里也基于自身的数据库建立起了知识图谱。阿里生态内有来自于淘宝、天猫、1688、AliExpress等多个市场和品牌商、行业运营、治理运营、消费者、国家机构、物流商等多种角色，基于阿里知识图谱的个性化推荐系统为其营收立下了汗马功劳。

2013年，Facebook推出社交图谱搜索工具Graph Search。随即，“美国版大众点评”Yelp股价大跌7%。《连线》杂志评论：GraphSearch的两大野心，一是在网页搜索领域干掉Google；二是在垂直搜索领域干掉所有对手，包括求职领域的LinkedIn，约会领域的Match，以及餐馆点评领域的Yelp。

介绍Facebook GraphSearch的Zuckerberg

虽然现在看来Facebook的野心并未实现，但巨头平台纷纷重仓，知识图谱的应用崛起不容小觑。

和巨头们的热情比起来，如开篇所述，创业公司看起来对这个赛道兴趣不大，对比之下，也暗含着这个领域小公司的“蜀道之难”。

创业公司的生存空间

国内第一梯队的知识图谱创业公司们告诉「甲子光年」：“活得还不错，这是一个蓝海市场。”超过半数的公司都表示知识图谱技术目前“供不应求”——由于团队大小限制，有时候客户都接不过来。

国内知识图谱创业公司并不算多，为避免与BAT直接交锋，他们往往从垂直领域作为市场切入点。目前，国内智能客服、金融、法律、公安、航空、医疗等“知识密集型”领域的山头都已被瓜分。

少数公司只做单一垂直领域，如文因互联、智言科技专注于金融领域。更多公司则会选择多个垂直领域同时推进，如明略数据主打公安、金融（大银行客户）、工业；擅长长文本分析的达观数据则主攻金融（审计）、制造业、法律；海知智能主攻智能家居、医疗、金融；渊亭科技则在航空、医疗、军工、通信、教育等多个领域均有涉足。

各家公司在商业模式上打法不同，主要分为三类：

第一类，以产品+定制化解决方案的形式进行直客服务。优点是能够与客户深度绑定积累行业经验，缺点是通常耗时耗力。例如，明略数据在金融、公安、工业领域积累深厚，其技术合伙人何鑫告诉「甲子光年」，正因此前以这一类模式深入行业和客户深度绑定，才构建起技术及行业壁垒。

第二类，通过集成商销售通用性较高的模块化功能。其优点是节省人力，缺点是客单价偏低。例如，渊亭科技在公安领域中通常将模块化工具提供给软件集成商，由集成商组合后再向客户进行销售。

第三类，成为第三方技术提供商，专注于特定技术环节，通过和不同客户合作，以产品分成或项目方式获得营收。其优点是应用领域相对宽泛灵活，缺点是对技术要求较高。海知智能是典型代表，他们不独立服务客户，而是选择某一环节提供技术，小米、百度度秘、平安、海尔等都是其合作伙伴。

值得关注的是，虽然各家在打法上有不同偏好，但没有任何一家公司采用单一商业模式。因为身处于初期市场中，打法往往跟着客户来，因为他们很难向客户说不。

为了保证知识图谱的准确率，现在的普遍现象是：构建过程中仍需要采用较多的人工干预。

“目前客户更多还是以结果为导向，至于人工+智能的比例是怎样不太重要。”达观数据CEO陈运文告诉「甲子光年」。

采访近十家知识图谱创业公司，「甲子光年」试图量化前文各家口中的“活得还不错”：

就目前阶段而言，大部分知识图谱创业公司为了深度渗透行业，都在干着“脏活累活”。其服务周期短则数月，长则一至两年，客单价根据项目复杂程度，在几十万元到几百万元区间不等，单笔订单价超过200万元的公司是极少数。

不止一家公司创始人告诉「甲子光年」，其战略是先在各垂直行业打一口又一口深井，井聚成湖，湖化为海。

那么，商业化的天花板能否捅破？

闭环之痛

回顾上述各类打法，可以看出，无论哪一种打法，市场增量空间都相对较窄，目前尚看不到可以N方增长的商业化出路。

知识图谱初创公司要想真正捅破天花板，面临着客户服务和数据闭环的双重挑战。

先看客户服务的挑战。

目前绝大多数知识图谱创业公司都是面向B端客户，B端客户分为大B和小B。

大B客户通常是国资背景的大型企业。其优点是有预算、有耐心。但他们寻求AI技术的原因往往来自于上层文件和指示，至于该用哪些技术、怎么用、用在哪、有多好用？客户并不了解，双方需要经过漫长的磨合、试错。然而，除了少部分有懂行的领导牵头的项目，很多时候技术并不能有效地用起来，对于双方来讲，磨合的过程反而是资源浪费。

某业内人士向「甲子光年」感慨，每年两万亿人民币数字化转型的国家经费，真正转化成价值的比例非常低。

此外，与大B客户合作通常还会受制于其公司的层级限制。

微软亚洲互联网工程院副院长于伟告诉「甲子光年」，他们在和国内某运营商合作时就遇到过尴尬的局面。“以前地方独立运营，同样的产品和服务每个省份都需要单独谈单独签”。好在此运营商最近对架构进行了一次梳理，优化了其权限结构。

而服务小B客户的情况更为艰难。最大问题在于客单价低，其次是需求不明确，此外，如果长期只做小B客户，难以通过实战提升技术、积累经验。

一位知识图谱公司CEO告诉「甲子光年」，“客户筛选”是他工作中很重要的一个环节。“接，还是不接？要从公司的技术积累、生产力和账面等多方面做权衡。”

虽然行业明显升温，但由于知识图谱本身是一项底层技术，且尚处于发展初期，还在实现“从无到有”搭建知识库的过程，给客户的是一种能力，却无法用直观、量化的商业价值测算。

换句话说，知识图谱不能直接给客户创收，这也使得对于很多客户来讲，这项服务并不是生死攸关的刚需，更像是对于明天的“理想追求”。

文因互联CEO鲍捷告诉「甲子光年」，坦率来讲，他认为在金融领域中，目前没有哪一家公司能够真正通过知识图谱技术提高客户的投资回报率，提高的只是客户的投研效率。“但我们能帮助客户在单位时间内看更多报告、公司，这难道就没有作用？”

公子小白CTO王昊奋认为这并不是知识图谱公司应该停留的状态。他告诉「甲子光年」：“当技术离开学术界走向市场之后，创造商业价值才是硬道理，毕竟客户最终看的还是效果。”

再看数据闭环的挑战。

跟坐拥海量数据的BAT相比，知识图谱创业公司的最大问题在于无法形成数据闭环。

形成闭环，要求数据能够自我生长、消化吸收、形成新的知识体系。如果无法解决闭环问题，知识图谱公司就只能停留在做数据的转化、录入和分析层面，注定无法分得更多的蛋糕。

打一个比方，为什么同样背景的学生在后来的实际工作中会有天壤之别？其关键是后续学习能力。如何基于已有背景知识快速学习新知，并构建新的知识体系，才是知识图谱技术应当攻克的核心难点。

今日头条就是一个正面教材，它的知识图谱一直在自我生长。每一个用户的每一次操作行为都帮助了它提高关系的准确度和维度，以此构建更加完善和聪明的知识图谱。

这样的良好循环对于作为知识图谱技术服务方的创业公司来讲，几乎很难实现。

在各垂直行业，如果客户产品不能与用户持续进行交互，就意味着客户自身尚不具备闭环数据生产的能力，何况技术服务商。

当下运用知识图谱技术服务金融、法律、公安、医疗、航空等知识密集领域的公司，都在“被动”获取数据（客户给的，或者爬虫获得的），这样的做法更使得技术提供商处于食物链底端，无法最大化知识图谱的价值。

王小川告诉「甲子光年」：“如果某天B端客户发现数据的消费和生产能够形成闭环，他很可能就自己干，或者把你收了。他才不会开环去做一个本该闭环的事，避免把数据和核心能力流到外面去。”

对于知识图谱创业公司们来讲，能不能形成闭环、能不能快速迭代、能不能持续学习将成为企业的核心竞争力。

这个问题对于创业公司们来讲也很头疼，目前没有很好的对策。

于伟告诉告诉「甲子光年」，想要在目前的技术条件下打通数据闭环并不容易，但也不是不可能。首先，在进入市场应该选择同质化程度较高的领域进行切入，比如，银行、保险、大型制造业等。当你在行业中打磨得足够优秀了，可以尝试在自己的产品中建立AI大脑，以此形成数据的闭环，快速迭代。

后深度学习时代

归根结底，知识图谱的意义在于在盘根错节的数据海洋中进行梳理和串联，让以前模糊的世界变得更加清晰。

人类对于知识体系的整理，始终未曾停歇。从永乐大典，到四库全书，再到各式各样的百科全书。作为编纂者，必须要思考的是：如何整理、组织信息，并以何种方式进行呈现？

目前，全球最大的“自由的网络百科全书”维基百科已经收录了超过2200万词条，仅英文版就超过400万条，远超纸质英文百科全书中最权威的大英百科全书的50万条，是全球浏览人数排名第6的网站。

2012年，大英百科全书宣布停止印刷版发行，全面转向电子化。这直接反映了当前社会的信息容量的爆发式增长程度。

以往线性的、疏离的、非结构化的知识体系已经无法满足需求——人们迫切需要寻找新的方法来呈现人类过往知识。

这也是人类文明从语言文字向数据化时代进步的关键一步：以前人类用文字符号代表和区分世间万物，而知识图谱是在此基础上的巨大创新。

前Google杰出工程师阿米特·辛格博士（Amit Singhal）在介绍知识图谱时是这样讲的：“The world is not made of strings , but is made of things.（构成这个世界的是实体，而非字符串）”

前Google工程师阿米特.辛格博士

反观这波AI浪潮，以深度学习为代表的大数据AI获得巨大进展，但深度学习的不透明性、不可解释性已成为制约其发展的障碍，所以，“理解”与“解释”是AI需要攻克的下一个挑战，而知识图谱为“可解释的AI”提供了全新的视角和机遇。

研究“可解释AI”的前提是梳理人类自身的认知机制。人类最擅长的思考方式就是将点和线关联起来，并由点及面、抽丝剥茧、慢慢理清其中的逻辑关系。知识图谱正试图抽丝剥茧，“像人类大脑一样思考”。

认清我们自己，才能将人类的能力赋予机器，重新审视人类自我，将是未来AI研究过程必不可少的环节。

“Knowing yourself is the beginning of all wisdom.”亚里士多德的这句话，正是知识图谱使命最好的概括。

END.

知识服务的本质和未来方向是什么？

知识服务是知识付费的升级,以往知识付费以卖课为主要的目的,用户花钱买了课程之后,这就是整个知识付费的过程,而用户对于为知识付费的目的更多的是想要学会一项具体技能或者掌握更合理的思维方式,尽管在一定程度 ...
知识赋能AI——张钹院士担任智谱公司首席顾问

2019年12月2日下午,中国科学院院士.清华大学教授张钹受聘为北京智谱华章科技有限公司首席顾问,并担任战略规划院名誉院长.受聘仪式同时邀请了北京智源人工智能研究院常务副院长曹岗等人参加. 唐杰教授作 ...
数倍客服效率提升，精准用户画像绘制，AI对话机器人在健康领域数字化转型的应用

智能交互是一个容易长期被忽略的产业,消费者需求场景的多样化,对高质量的客服获取和精准的服务匹配需求,推动客服产业向智能化方向发展. 无论是淘宝.京东还是微信平台,巨大流量背后是用户对精准决策的期待,客 ...
明略数据杨威：公安行业 AI 应用离成熟还有一段距离

在行业大数据领域,这家成立于 2014 年的公司在短短几年内发展迅速,在公安.金融.交通领域,尤其是公安领域拿下了不少客户,被视为国内大数据服务型公司的典型代表之一. 我们邀请到了这家公司的技术合伙人 ...
欢迎围观人工智能学术知识图谱（KG4AI）

目前人工智能正在快速发展,人工智能也逐渐上升到企业甚至国家的战略高度,相关的人才对人工智能领域的发展至关重要,这就需要人工智能领域人才数据的支持.基于AMiner海量的学术资源,我们构建出了全球人工智 ...
百度饮得知识图谱的头啖汤！会让大家跟着吃鸡吗？

2017年,知识经济日益火爆,分答.知乎.得到等知识平台可谓如日中天.眼下这种火爆已在从人类延展到机器.互联网巨头纷纷对知识变得饥渴起来,知识成为数据之后的又一个香饽饽. 互联网巨头对知识越来越青睐 ...
行业规模的知识图谱——经验和挑战

[引子] 本文是石头兄弟推荐的一篇关于知识图谱综述性文章,老码对去年ACM上的这篇"Industry-Scale Knowledge Graphs: Lessons and Challeng ...
无人配送突围之路：Nuro领跑、美团超车 | 甲子光年

自动驾驶竞赛中,美团也一直在发力.不过他们没有跟风,而是造自己需要的无人配送车. 作者 | 高雅编辑 | 杨杨 2021年上海车展的主题是"拥抱变化",能够让参展者切实感受到发生 ...
2021「甲子引力X」圆桌论坛：回归初“芯” | 甲子光年

从左到右依次是张焕麟.丁丁.梁晓峣.林全.王海全.王喆编辑 | 赵健 2021年4月27日,中国科技产业智库「甲子光年」在深圳举办2021「甲子引力X」大湾区科技创新高峰论坛. 当日下午举行的圆桌论 ...
名老中医医案知识图谱

随着信息时代的来临,知识呈现出爆炸式增长的现象,计算机处理技术水平和存储能力也得到了迅速提高,且实现了越来越便捷的信息分析.检索,甚至可视化等先进的功能,使得近年来出现了以知识单元为前提.可以快速获取 ...
何捷：知识图谱——精准定位教学的“GPS”

2012年,谷歌(Google)正式提出了知识图谱的概念,并宣布以此为基础构建下一代智能化搜索引擎.我们所理解的知识图谱是人工智能领域的一个重要分支,其来源于智能化的图书情报和信息处理技术,即将文献中 ...
自动驾驶的十年变局 | 甲子光年

汽车领域的变革,正对传统企业.科技公司.互联网平台进行重新洗牌. 作者 | 刘景丰编辑 | 杨杨自动驾驶已成了当下车圈的"显学". 今年4月21日上海车展某场馆内,一场自动驾驶 ...
【直播课】知识图谱第三期直播-关系抽取及分类

前言最近几年知识图谱作为人工智能领域很热门的一项技术,已经在不少领域都取得了不少成功的落地案例.不过知识图谱作为人工智能的一个底层技术,确实不如图像,语音等技术一样让人能很直观的感受到它的存在.于是 ...
机器人行业：打群架才是必经之路 | 甲子光年

从左至右依次是:唐圣添.陈首先.陈兆芃.王淮.王永锟作者 | 易思琳编辑 | 杨杨 2020年,对机器人行业来说,是一线基金入局的一年.这一年,机器人行业逐渐从幕后走至台前,得到了越来越多的关注. ...
ENRIE：知识图谱与BERT相结合，为语言模型赋能助力

来自:朴素人工智能感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理,我们将沿此脉络前行,探索预训练语言模型的前沿技术,红框中为已介绍的文章,绿框中为本期介绍的模型,欢迎大家留言讨论交流. E ...
天津，你终于火了！昨晚，一组照片刷爆了全国！

日前,中国旅游研究院发布了 <2021世界旅游城市蓝皮书> 这其中,天津斩获多个前10的榜单在世界游客向往的中国城市榜单中天津位列第9