融资1500万美元,Kyligence要做全自动智能系统|专访Kyligence CTO李扬
kyligence CTO 李扬
作者|Echo Tang
2014 年,任职摩根士丹利副总裁的李扬为了开源 Apache Kylin 这个项目加入了 eBay,当时,Apache Kylin 还只是 Kylin,李扬认为 Kylin 是国内少有的,能够在技术上面有突破的案例。
彼时,Kylin 在 eBay 内部刚刚立项,李扬对此产生了浓厚的兴趣。随后在 eBay 两年,李扬见证了 Kylin 从一个内部的中国人自己做的项目,慢慢变成了一个世界级的开源平台。同时,也结识了 Kyligence 联合创始人兼 CEO、TGO 鲲鹏会上海分会会员韩卿。
2016 年,鉴于对 Apache Kylin 项目的认可以及想做点不一样事情的心境,韩卿、李扬等人牵头创立了 Kyligence,成立伊始即获得来自硅谷老牌风投红点中国领投,思科跟投的天使轮融资,并于 2017 年初完成了由宽带资本和顺为资本领投的 A 轮融资。
7 月 5 日,一场主题为“大数据赋能,智能创未来”的 Kyligence 融资暨新产品发布会在世界第二高楼上海中心大厦举行。Kyligence 本轮融资由斯道资本领投,原有红点中国、思科、宽带资本、顺为资本跟投,总金额 1500 万美元。
发布会上所有 kyligence 员工统一穿着黑色 T 恤,主持人和 CEO 韩卿也不例外,一眼看过去整齐、利落。发布会正式开始之前,白色为主色调的大屏幕上是干干净净的一行字“每一次的技术革新,都是人力释放的变革。”每一个细节都散发着 Kyligence 对技术的执着和敬畏。
Kyligence CTO 李扬在接受 TGO 鲲鹏会记者采访时也曾说,“技术是一个企业能站起来的关键。”
目前,还不满三岁的 Kyligence 凭借自身的技术实力已经赢得了海内外多家金融、保险、证券、电信、制造、零售、广告等企业级客户。包括:华为、中国联通、OPPO、上汽集团、太平洋保险集团、中国银联、国泰君安、欣和等行业领导者。
Kyligence 的成功多半要归功于对技术的用心。大数据领域涉及到很多技术,包括并行计算、列式存储、内存加速、代码生成等,李扬称这些技术为“通用技术”。在李扬看来,十个大数据产品,可能有九个半都会用到这些技术,Kylin 技术也不例外。“但除了通用技术,Kylin 还有自己的特色,它有一个预计算技术。”李扬说道。
为了让预计算更好理解,李扬举了一个厨房备菜的例子。
假如客户到达餐厅开始点餐,厨师才开始做菜,至少要花费半个小时,因为他不能提前做准备工作。而预计算技术就类似提前下单,一个老客户到达餐厅之前,餐厅可以根据客户以往的喜好猜出他可能会点哪些菜,然后把这些菜的半成品都准备好,这样如果客户到店之后恰好点了这些菜,厨师就可以马上做出来。
大数据的查询也是一样的道理,如果等 100 亿条记录来了再开始计算,速度肯定快不起来。“所以 Kyligence 要做的是能根据用户的历史查询习惯和记录,预测用户会发什么查询过来,然后做预先的计算。比如,有 100 亿条记录需要计算,而我已经做了很多预计算。当场可能只需要计算原来 1% 的计算量,这跟事先准备好菜的半成品是一个道理。”李扬解释道。
虽然预计算技术是 Kylin 的主要优势,但李扬不否认这项技术有被追赶上的可能性,“在信息这么通畅的今天,我相信没有技术公司敢说我站在一个别人永远都追不上的位置,我们也是一样。”
但对于技术的门槛,李扬非常有信心,他认为预计算技术存在比较有挑战性的门槛。“第一个门槛是预判技术,我们能够根据过去的查询准确预测出未来的查询是什么样子。另外一个是能够很好地抽象一个预计算模型。类似于一道菜的半成品,用户每次来点一模一样的菜的可能性是非常小的。但用户的口味会有一些偏向性,比如他喜欢吃素,或者他特别爱大肠。那你就可以猜出他不管怎么点,可能翻来覆去都翻不出一道素菜和一套大肠的某种做法。所以我们可以事先把素菜和大肠这两个原材料准备好。
预算模型可以理解为查询是千变万化的,他每次点的菜都不一样。但是经过一层解析、拆解之后,我会发掘 20 条不一样的查询里存在一个核心,这个核心我们叫做查询模式,它是重复的。根据这个查询模式我就可以来做预计算,但这个核心提炼是一个很高的技术难点。”
7 月发布会上除了宣布完成 B 轮融资,Kyligence 还发布了以 Apache Kylin 技术为核心的下一代大数据智能分析产品 —— Kyligence Enterprise v3.0 及 Kyligence Clould v2.0,通过机器学习等增强数据仓库分析技术,进一步赋能企业释放大数据生产力。李扬在采访中详细介绍了这两款新产品的性能和特性。
预计算的优势就在 Kyligence Enterprise v3.0 的性能提升上发挥了作用。在 Kyligence 提供的测评报告中显示,Kyligence Enterprise v3.0 比目前在市场最流行的开源大数据分析平台 SparkSQL 平均快 15 倍左右。
以两家电商网站为例,电商网站的盈利的模式主要是通过数据分析找到当前市场上好卖的商品和热点,然后有针对性地去投放相关的广告,制定相应的促销计划,让销售量能够持续的增长,它是非常依赖数据分析驱动的一个行业。 如果其中一家电商网站的分析速度比另外一家快 15 倍,那在两个电商竞争的时候,速度快的一方能够更及时地推出一些促销计划,更及时地了解到市场的热点和行情。
李扬认为,速度虽然是一个很抽象的技术概念,但它很容易在一个商业的环境里体现出价值。这是 Kyligence Enterprise v3.0 的第一个特性。
Kyligence Enterprise v3.0 的第二个特性是存储成本的节省。Kyligence 研发出了一种新的存储和索引的结构,它的存储的效率可以比以前高一倍。也就是说原来需要 100 个 GB 存储空间的数据现在只需要 50 个 GB。对于客户而言,这个特性最直观的益处就是节省成本。
第三个特性是融合。技术是一个统一的分析入口,它能够对接各式各样企业内部的一个数据源,它的结构下图所示。查询是从上面入口下来,然后能够到达 Kyligence Enterprise v3.0 产品。 “它像一只章鱼一样,连接着企业里边原有的各种数据,解决了统一分析的问题。”李扬说到。
第四个特性是智能。它能够很聪明的去预测将来的查询是什么。“所以在这一代的系统里,我们把智能的理念和展望变成了现实。 在新一代的产品里,用户可以输入一些历史的查询,系统会自动从中学习出历史查询里边的查询模式,以及提炼出预计算模型。有了这两个东西,我们就可以很好地预测将来的查询,以及我需要去做怎么样的预计算。”
另外一个产品 Kyligence Clould v2.0 是 Kyligence Enterprise v3.0 在云上的能力的服务体现。他除了具备 Kyligence Enterprise v3.0 的四个技术功能特点以外,那还有一些云上的特性。
第一个是唾手可得的大数据分析能力,以前用户要搭一个大数据分析平台首先得从采购硬件搭建机房开始,可能需要 20 台甚至 100 台机器才能组建一个数据中心,这对很多用户来而言是个很大的门槛。而云上大数据分析平台能够很好地解决这个问题,用户只需要一两千块人民币就能够很快的在云上获得二三十台机器,能够很快地去试验领先的大数据分析能力。
第二个是按需来调节成本的能力,叫做按需付费。用户自己可能买了一百台机器,但又不是 7×24 小时在用,就会造成资源的浪费。云上就可以减少这样的资源浪费,比如晚上没有人使用这些分析服务,云上就可以自动把这个计算资源关掉。整个机群可能是 100 台,他就可以缩减到 20 台,白天使用的人多起来,他自动的就从 20 台扩展到 50 台。在整个过程当中,系统会自动地按照使用的情况来伸缩虚拟机的资源,而用户只需要为它用到的部分来付费。
最后一个云上的一个特性是数据的安全性。很多用户会担心宝贵的数据放到云上,是不是会有安全泄露的问题。Kyligence 现在和很主要的几个云合作伙伴有不同层次的合作,包括亚马逊 AWS 的云服务,微软 Azure 云服务,Google 的云服务,国内的阿里云等。“我们会确保这些数据使用最高的可靠性在云端存储,它会按照用户的账户来隔离,确保只有用户自己能看到和访问这些数据。同时,Kyligence Clould v2.0 还有很高的可靠性,它会自动在云端做数据的很多拷贝副本,这样确保无论在何时何地,不管机房断电还是走火,用户的数据一定都是安全、可靠、可用。 ”
虽然 Kyligence Enterprise v3.0 已经取得了比 Spark SQL 平均快 15 倍左右的好成绩,但 Kyligence 并不满足于此,李扬表示:“我自己心里还是希望能够快 100 倍,我们也在朝着这个方向努力。”
李扬认为,预计算技术是 Kyligence 的领先优势,后续 Kyligence 关键技术的发力点也是围绕着预计算。要做到快快一百倍,一方面需要释放更多预计算的力量,要提出更多的查询模式,做更充分的计算。另一方面要更加智能,Kyligence 现在这一代产品还是有一些半自动的感觉在里面,还需要人工来干预。 “半自动化说明技术还在一个初期阶段。朝着这个方向进步,就需要把人工智能做的更加成熟、可靠,彻底的释放人力,做一个全自动的智能系统。”
未来,Kyligence 还会在云端加大投入,Kyligence 目前在云上面提供的还是一个基础的技术。以分析师为例,云上对于分析师而言可能是一个数据库,但分析师不喜欢和冷冰冰的数据库打交道,他希望有个像 Tableau 一样的大数据分析工具。这个分析工具是否能够直接连接到云上的服务器,是否能够直接来做日常分析?这是客户迫切需要的场景,Kyligence 会在这个上面持续投入。
据李扬透露:2019 年,Kyligence 会推出下一代产品。技术层面会在人工智能这个方向上持续投入,希望能够推出更聪明的下一代系统。
QCon 上海 2018 已经起航,届时将会有包括人工智能、微服务、高可用架构、DevOps 等 20+ 领域热门技术的最新实践。目前大会 8 折报名中,立减 1360 元。有任何问题欢迎咨询票务经理 Hanna,电话:010-84782011,微信:qcon-0410。
TGO 鲲鹏会希望能够和更多的技术领导者及其所在企业共同成长,特推出年度共创伙伴计划,在 TGO 鲲鹏会的线上线下平台,为会员提供更多形式多样的优质内容,为企业提供宣传展示机会,尤其是 TGO 鲲鹏会会员所在企业更有大幅优惠。2018 / 2019 年度共创伙伴共有 10 家企业,其中 7 家都是 TGO 鲲鹏会会员所在企业,知道创宇就是其中一家。