为什么知识图谱终于火了?|甲子光年
如果知识是人类进步的阶梯,知识图谱就是AI进步的阶梯。
作者|金丝猴
编辑|甲小姐
设计|孙佳栋
微信|甲子光年 (ID:jazzyear)
“知识图谱”相较于AI其他分支,似乎是最后一个热起来的赛道:
「甲子光年」对国内某数据平台上的企业标签进行了统计,国内AI初创企业所涉及的技术标签全部加起来近3000个,其中,“计算机视觉”出现255次,“语音识别”出现81次,“自动驾驶”出现152次,“自然语言处理”188次,“芯片”51次……而“知识图谱”仅出现10次,是所有标签中,出现频次最低的。
也就是说,作为一项AI领域底层技术,知识图谱并不是大部分AI创业者的兴趣所在;作为一个创业方向,这条赛道还远远谈不上拥挤。
不过近来,升温趋势开始出现。
最近一段时间,“知识图谱”这个词被频频提及,做知识图谱的公司开始增多,甚至一些大数据公司开始在自己的名字后面加上这四个字。
部分知识图谱领域创业者向「甲子光年」描述了他们感受到的市场变化:
“2014年、2015年我出去宣传知识图谱,当时大部分人都问我:你是做图片处理的吗?但近两年邀请我去讲知识图谱的会越来越多了,大家对这个技术已经建立了基本的认知。”渊亭科技(DataExa)CEO洪万福说。
“我以前出去谈客户,客户都是搓着手问我有哪些AI技术可以拿来用。而现在客户直接就说:我们需要应用于一套管理XX的知识图谱的系统。”达观数据CEO陈运文说。
为什么知识图谱近来突然火了?
“升温”背后的前世今生
本质原因,是人工智能火了,而深度学习并非放之四海皆管用,人们开始意识到:“知识”是“智能”的前提。
“一个逻辑学家,不需要亲眼见过,或听过大西洋和尼亚加拉大瀑布,他能凭借一滴水推测出它们的存在。所以整个生活就是一个巨大的链条,只要见到其中一环,整个链条的情况就可推想出来。”阿瑟·柯南·道尔有言。
他所描绘的,是人类大脑对知识天然的联想能力,对人类理解世界、学习新知起着至关重要的作用。
如果知识是人类进步的阶梯,知识图谱就是AI进步的阶梯——这正是知识图谱对于AI的核心意义。
什么是知识图谱?
知识图谱(Knowledge Graph)旨在描述客观世界的概念、实体、事件及其之间的关系——简言之,就是谁是谁的“爸爸”,谁是谁的“儿子”,这些概念之间的关系。
全球第一个大规模开放域链接数据项目DBpedia的知识图谱示意图
2012年5月,Google推出Google知识图谱(Google Knowledge Graph),并利用其在搜索引擎中增强搜索结果。这是“知识图谱”名称的由来,也标志着大规模知识图谱在互联网语义搜索中的成功应用。
搜索关键词Google会给出与之相关的详细搜索结果
事实上知识图谱技术渊源已久,只是在不停地换名字而已——从上世纪70年代的“专家系统(Expert System)”,到万维网之父Berners-Lee提出“语义网(Semantic Web)”,再到他后来提出的“链接数据(Linked Data)”,都是知识图谱的前身。
伴随着Web技术的不断演进与发展,人类先后经历了以文档互联为主要特征的“Web 1.0”时代与以数据互联为特征的“Web 2.0”时代,正迈向基于知识互联的“Web 3.0”时代。
可以说,知识图谱的升温,是AI对数据处理和理解需求逐日增加所导致的必然结果,而其发展有赖于专家系统、语言学、语义网、数据库,以及信息抽取等众多领域,是一个交叉融合的产物。
平台巨头纷纷重仓
2012年Google知识图谱一出激起千层浪:微软必应、搜狗、百度等搜索引擎公司在短短一年内纷纷宣布了各自的“知识图谱”产品,如百度“知心”、搜狗“知立方(现更名为‘立知’)”等。
据百度副总裁王海峰介绍,目前百度知识图谱在百度众多产品线中已广泛应用,从2014年上线开始,知识图谱服务规模三年间增长了大约160倍。
搜狗CEO王小川则告诉「甲子光年」:“搜狗是国内首家构建和应用知识图谱的搜索引擎。知识图谱也是搜狗的基础能力,服务于搜索引擎和其他多个产品。”根据搜狗2016年财报显示,其搜索流量急速攀升,尤其移动搜索流量增长70%,背后原因很大程度上因为其将基于知识图谱的AI技术和差异化内容武装到产品。
以社交为主战场的腾讯也利用其数据优势构建了自己的社交知识图谱。腾讯研究院称,其汇总了微信、QQ和公众号超过20万亿次的阅读点击量、数百亿笔支付数据、全年约1300亿次视频点击量、70亿次新闻点击量、四十余万款上线APP等数据。基于这些数据,腾讯构建出的知识图谱可以服务于其众多产品,并在语音搜索、智能问答等新趋势中积蓄势能。
以电商为主战场的阿里也基于自身的数据库建立起了知识图谱。阿里生态内有来自于淘宝、天猫、1688、AliExpress等多个市场和品牌商、行业运营、治理运营、消费者、国家机构、物流商等多种角色,基于阿里知识图谱的个性化推荐系统为其营收立下了汗马功劳。
2013年,Facebook推出社交图谱搜索工具Graph Search。随即,“美国版大众点评”Yelp股价大跌7%。《连线》杂志评论:GraphSearch的两大野心,一是在网页搜索领域干掉Google;二是在垂直搜索领域干掉所有对手,包括求职领域的LinkedIn,约会领域的Match,以及餐馆点评领域的Yelp。
介绍Facebook GraphSearch的Zuckerberg
虽然现在看来Facebook的野心并未实现,但巨头平台纷纷重仓,知识图谱的应用崛起不容小觑。
和巨头们的热情比起来,如开篇所述,创业公司看起来对这个赛道兴趣不大,对比之下,也暗含着这个领域小公司的“蜀道之难”。
创业公司的生存空间
国内第一梯队的知识图谱创业公司们告诉「甲子光年」:“活得还不错,这是一个蓝海市场。”超过半数的公司都表示知识图谱技术目前“供不应求”——由于团队大小限制,有时候客户都接不过来。
国内知识图谱创业公司并不算多,为避免与BAT直接交锋,他们往往从垂直领域作为市场切入点。目前,国内智能客服、金融、法律、公安、航空、医疗等“知识密集型”领域的山头都已被瓜分。
少数公司只做单一垂直领域,如文因互联、智言科技专注于金融领域。更多公司则会选择多个垂直领域同时推进,如明略数据主打公安、金融(大银行客户)、工业;擅长长文本分析的达观数据则主攻金融(审计)、制造业、法律;海知智能主攻智能家居、医疗、金融;渊亭科技则在航空、医疗、军工、通信、教育等多个领域均有涉足。
各家公司在商业模式上打法不同,主要分为三类:
第一类,以产品+定制化解决方案的形式进行直客服务。优点是能够与客户深度绑定积累行业经验,缺点是通常耗时耗力。例如,明略数据在金融、公安、工业领域积累深厚,其技术合伙人何鑫告诉「甲子光年」,正因此前以这一类模式深入行业和客户深度绑定,才构建起技术及行业壁垒。
第二类,通过集成商销售通用性较高的模块化功能。其优点是节省人力,缺点是客单价偏低。例如,渊亭科技在公安领域中通常将模块化工具提供给软件集成商,由集成商组合后再向客户进行销售。
第三类,成为第三方技术提供商,专注于特定技术环节,通过和不同客户合作,以产品分成或项目方式获得营收。其优点是应用领域相对宽泛灵活,缺点是对技术要求较高。海知智能是典型代表,他们不独立服务客户,而是选择某一环节提供技术,小米、百度度秘、平安、海尔等都是其合作伙伴。
值得关注的是,虽然各家在打法上有不同偏好,但没有任何一家公司采用单一商业模式。因为身处于初期市场中,打法往往跟着客户来,因为他们很难向客户说不。
为了保证知识图谱的准确率,现在的普遍现象是:构建过程中仍需要采用较多的人工干预。
“目前客户更多还是以结果为导向,至于人工+智能的比例是怎样不太重要。”达观数据CEO陈运文告诉「甲子光年」。
采访近十家知识图谱创业公司,「甲子光年」试图量化前文各家口中的“活得还不错”:
就目前阶段而言,大部分知识图谱创业公司为了深度渗透行业,都在干着“脏活累活”。其服务周期短则数月,长则一至两年,客单价根据项目复杂程度,在几十万元到几百万元区间不等,单笔订单价超过200万元的公司是极少数。
不止一家公司创始人告诉「甲子光年」,其战略是先在各垂直行业打一口又一口深井,井聚成湖,湖化为海。
那么,商业化的天花板能否捅破?
闭环之痛
回顾上述各类打法,可以看出,无论哪一种打法,市场增量空间都相对较窄,目前尚看不到可以N方增长的商业化出路。
知识图谱初创公司要想真正捅破天花板,面临着客户服务和数据闭环的双重挑战。
先看客户服务的挑战。
目前绝大多数知识图谱创业公司都是面向B端客户,B端客户分为大B和小B。
大B客户通常是国资背景的大型企业。其优点是有预算、有耐心。但他们寻求AI技术的原因往往来自于上层文件和指示,至于该用哪些技术、怎么用、用在哪、有多好用?客户并不了解,双方需要经过漫长的磨合、试错。然而,除了少部分有懂行的领导牵头的项目,很多时候技术并不能有效地用起来,对于双方来讲,磨合的过程反而是资源浪费。
某业内人士向「甲子光年」感慨,每年两万亿人民币数字化转型的国家经费,真正转化成价值的比例非常低。
此外,与大B客户合作通常还会受制于其公司的层级限制。
微软亚洲互联网工程院副院长于伟告诉「甲子光年」,他们在和国内某运营商合作时就遇到过尴尬的局面。“以前地方独立运营,同样的产品和服务每个省份都需要单独谈单独签”。好在此运营商最近对架构进行了一次梳理,优化了其权限结构。
而服务小B客户的情况更为艰难。最大问题在于客单价低,其次是需求不明确,此外,如果长期只做小B客户,难以通过实战提升技术、积累经验。
一位知识图谱公司CEO告诉「甲子光年」,“客户筛选”是他工作中很重要的一个环节。“接,还是不接?要从公司的技术积累、生产力和账面等多方面做权衡。”
虽然行业明显升温,但由于知识图谱本身是一项底层技术,且尚处于发展初期,还在实现“从无到有”搭建知识库的过程,给客户的是一种能力,却无法用直观、量化的商业价值测算。
换句话说,知识图谱不能直接给客户创收,这也使得对于很多客户来讲,这项服务并不是生死攸关的刚需,更像是对于明天的“理想追求”。
文因互联CEO鲍捷告诉「甲子光年」,坦率来讲,他认为在金融领域中,目前没有哪一家公司能够真正通过知识图谱技术提高客户的投资回报率,提高的只是客户的投研效率。“但我们能帮助客户在单位时间内看更多报告、公司,这难道就没有作用?”
公子小白CTO王昊奋认为这并不是知识图谱公司应该停留的状态。他告诉「甲子光年」:“当技术离开学术界走向市场之后,创造商业价值才是硬道理,毕竟客户最终看的还是效果。”
再看数据闭环的挑战。
跟坐拥海量数据的BAT相比,知识图谱创业公司的最大问题在于无法形成数据闭环。
形成闭环,要求数据能够自我生长、消化吸收、形成新的知识体系。如果无法解决闭环问题,知识图谱公司就只能停留在做数据的转化、录入和分析层面,注定无法分得更多的蛋糕。
打一个比方,为什么同样背景的学生在后来的实际工作中会有天壤之别?其关键是后续学习能力。如何基于已有背景知识快速学习新知,并构建新的知识体系,才是知识图谱技术应当攻克的核心难点。
今日头条就是一个正面教材,它的知识图谱一直在自我生长。每一个用户的每一次操作行为都帮助了它提高关系的准确度和维度,以此构建更加完善和聪明的知识图谱。
这样的良好循环对于作为知识图谱技术服务方的创业公司来讲,几乎很难实现。
在各垂直行业,如果客户产品不能与用户持续进行交互,就意味着客户自身尚不具备闭环数据生产的能力,何况技术服务商。
当下运用知识图谱技术服务金融、法律、公安、医疗、航空等知识密集领域的公司,都在“被动”获取数据(客户给的,或者爬虫获得的),这样的做法更使得技术提供商处于食物链底端,无法最大化知识图谱的价值。
王小川告诉「甲子光年」:“如果某天B端客户发现数据的消费和生产能够形成闭环,他很可能就自己干,或者把你收了。他才不会开环去做一个本该闭环的事,避免把数据和核心能力流到外面去。”
对于知识图谱创业公司们来讲,能不能形成闭环、能不能快速迭代、能不能持续学习将成为企业的核心竞争力。
这个问题对于创业公司们来讲也很头疼,目前没有很好的对策。
于伟告诉告诉「甲子光年」,想要在目前的技术条件下打通数据闭环并不容易,但也不是不可能。首先,在进入市场应该选择同质化程度较高的领域进行切入,比如,银行、保险、大型制造业等。当你在行业中打磨得足够优秀了,可以尝试在自己的产品中建立AI大脑,以此形成数据的闭环,快速迭代。
后深度学习时代
归根结底,知识图谱的意义在于在盘根错节的数据海洋中进行梳理和串联,让以前模糊的世界变得更加清晰。
人类对于知识体系的整理,始终未曾停歇。从永乐大典,到四库全书,再到各式各样的百科全书。作为编纂者,必须要思考的是:如何整理、组织信息,并以何种方式进行呈现?
目前,全球最大的“自由的网络百科全书”维基百科已经收录了超过2200万词条,仅英文版就超过400万条,远超纸质英文百科全书中最权威的大英百科全书的50万条,是全球浏览人数排名第6的网站。
2012年,大英百科全书宣布停止印刷版发行,全面转向电子化。这直接反映了当前社会的信息容量的爆发式增长程度。
以往线性的、疏离的、非结构化的知识体系已经无法满足需求——人们迫切需要寻找新的方法来呈现人类过往知识。
这也是人类文明从语言文字向数据化时代进步的关键一步:以前人类用文字符号代表和区分世间万物,而知识图谱是在此基础上的巨大创新。
前Google杰出工程师阿米特·辛格博士(Amit Singhal)在介绍知识图谱时是这样讲的:“The world is not made of strings , but is made of things.(构成这个世界的是实体,而非字符串)”
前Google工程师阿米特.辛格博士
反观这波AI浪潮,以深度学习为代表的大数据AI获得巨大进展,但深度学习的不透明性、不可解释性已成为制约其发展的障碍,所以,“理解”与“解释”是AI需要攻克的下一个挑战,而知识图谱为“可解释的AI”提供了全新的视角和机遇。
研究“可解释AI”的前提是梳理人类自身的认知机制。人类最擅长的思考方式就是将点和线关联起来,并由点及面、抽丝剥茧、慢慢理清其中的逻辑关系。知识图谱正试图抽丝剥茧,“像人类大脑一样思考”。
认清我们自己,才能将人类的能力赋予机器,重新审视人类自我,将是未来AI研究过程必不可少的环节。
“Knowing yourself is the beginning of all wisdom.”亚里士多德的这句话,正是知识图谱使命最好的概括。
END.