神策数据创始人兼CEO桑文锋:采集缺失折射数据建设之殇
企业内外部数据爆发式增长、市场对大数据价值认知程度提升、以及资本的热情,促使了大数据行业创业者呈规模化涌现。作为新贵行业,AI是大数据发展的高级形态,其成果是建立在企业对大数据的应用能力之上。
作者 | 桑文锋
本文长度为3000字,建议阅读6分钟
本文为数据猿年关策划活动《大数据的2016,我的2016》系列稿件,感谢本文作者 神策数据创始人兼CEO 桑文锋 先生的投稿。
敬请期待春节后的2月16日,由数据猿与中欧商学院、腾讯视频共同举办的高端领袖线下演讲栏目中欧微论坛之《超声波》。
在2016年,大数据这个词一如既往的热门,不同于往年的概念和趋势层面,今年是大数据领域具有里程碑式转变的一年。无论是互联网行业、还是传统行业都开始把大数据真正深度应用于业务领域、去驱动业务变革,并且向着以数据驱动为核心的方向前进。
随着各行业在大数据相关的技术体系日趋完善,自助式、自动化、灵活的大数据分析工具和解决方案也越来越受到广大的企业级客户重视。这一趋势也将在2017年持续下去,机器学习、人工智能和物联网技术的应用深化,会不断推动大数据领域迎来一轮新的爆发式发展;而中国大数据产业的竞争也将会越来越激烈,拥抱客户快速迭代数据产品是大势所趋。
吴军在《浪潮之巅》一书中指出,科技的发展不是均匀的,而是以浪潮的形式出现。在中国企业互联网化的历史车轮中,除了时势和机遇,一些高瞻远瞩、掌握核心技术与资源优势的企业走在了时代的前沿,并给互联网时代刻上深深的烙印。如今,我们正处在怎样的浪潮之中?
Gartner预计,到2020年,大数据将成为主流的嵌入式技术,并被视为常规产品的一部分。相关数据显示,随着对大数据认知程度的普遍提升、互联网企业数据呈现几何式增长,我国约有25%的企业正在努力寻求大数据的价值。显然,任何违背“新标配”的企业将处于衰退边缘。
互联网化20年:从“拍脑袋”到“数据驱动”
回顾过去二十年,我国企业互联网化的生态圈呈现巨大的发展潜力,互联网在企业生产资源配置的优化和集成发挥着关键作用。总体来说,我国企业的互联网化分为信息化建设和数据化建设两个阶段。
2000年~2015年是中国企业的信息化建设时期。在这一时期,企业纷纷专设并配备企业运营管理的工作平台,如建设网站、搭建数据库、选型ERP系统等等。当时涌现的一批优秀的企业管理软件厂商,如用友、金蝶等,现已是我国民族管理软件的行业翘楚。
相比2000年~2010年的高速发展,在接下来的五年,我国企业信息化建设趋于平稳。市场日趋成熟并相对饱和,同时我国企业开始向下一阶段——数据化建设阶段迈进。
2015年至今,我国企业互联网化进入全新阶段——数据化建设阶段。伴随“互联网+”的提出,在基本完成信息化后,企业聚焦点逐步转向如何将企业内外部产生的数据高效应用,从而让企业决策不再依赖“拍脑袋”,而是靠“数据驱动”。
纵观互联网化的发展态势,信息化建设是数据化建设的基础,数据化建设是信息化建设的高级阶段。如果说信息化建设解决的是企业经营管理的难题,那么,数据化建设解决的则是运营决策的科学化问题。
采集缺失、埋点混乱折射数据建设之殇
国外数据化建设阶段早于我国十余年,在我国企业信息化萌芽之际,国外企业已经迈开数据化建设脚步。当时,国内仅有BAT(百度、阿里、腾讯)率先汲取硅谷先进理念,认知到“数据”、“计算”的重要性,将大数据升级为公司战略。如今,这些先行者们已拥有海量数据并开始尝试加以利用,大数据体系和工具日趋成熟。
BAT三大巨头中数据应用思路差异较大,其中,百度是技术至上。很幸运,我是“吃过猪肉,也见过猪跑”的人——在百度的八年时间里,我见证并献身于百度大数据的建设,我所负责的团队从零到一构建了百度用户行为分析大数据平台,覆盖数据的采集、传输、建模、查询分析、数据可视化等前沿技术。
除BAT之外,我国绝大多数企业的数据化建设道路仍刚刚起步,并面临着众多挑战,如数据采集缺失或埋点无序混乱、数据分析的能力欠缺等。2015年,我从百度离职并创建神策数据(Sensors Data),目的就是,将中国企业数据采集和建模等数据基础搭建好,让数据驱动真正在中国企业落地生根。
夯实数据基础——AI战场“主力军”之通关技
企业内外部数据爆发式增长、市场对大数据价值认知程度提升、以及资本的热情,促使了大数据行业创业者呈规模化涌现。目前,市面上大数据初创企业,主要分为掌握并应用数据源的企业、提供数据分析工具的企业、数据探索式的企业三种类型。
随着机器学习和自然语言处理技术在金融、传媒、零售等领域的广泛应用,预计2017年开始,AI(Artificial Intelligence,人工智能)企业将不断涌现。根据全球第二大市场研究咨询公司Markets & Markets近期公布的数据,2020年人工智能市场规模将达到50.5亿美元。
作为新贵行业,AI是大数据发展的高级形态,其成果是建立在企业对大数据的应用能力之上。它面临的来自大数据基础建设的重重挑战:
1、能否全面、实时地获取数据?
2、能否辨析并采用正确的数据指标,提取有效数据?
3、能否应对极剧骤增的数据量和不同类型数据,且驱动数据变现?
4、能否解决数据隐私、数据安全的问题?
显然,如果数据出现偏差,人工智能发展方向就会被“误入歧途”。因此,与另外两类企业合作,是AI企业发展的必然选择。合作的目的,一方面,是要解决好数据源和数据基础问题。借此,才能避免被数据的预处理工作拖入泥潭,深度挖掘大数据的商业价值;另一方面,其余两类大数据企业为AI企业提供丰富的应用场景,让AI价值不再是“空中楼阁”。
Gartner《2017十大技术趋势》报告指出,2020年,人工智能将成为服务供应商的主战场。如此说来,只有打好数据基础的企业,方能成为AI主战场上的“主力军”。
莫让安全顾虑阻挡企业数据化进程
在企业大数据建设过程中,安全问题一直是企业最大的顾虑。神策数据的一切出发点都是客户需求,而非神策人自己的意志。因此,相比于市面上大数据初创企业选择轻量的SaaS服务模式,神策数据采用“私有化部署+PaaS”的企业服务模式。
我认为,私有化部署并非企业级服务模式的倒退,客户的安全顾虑不应成为企业数据化进程的“绊脚石”。
2017年,一些中大型互联网企业、国有企业,甚至传统企业,已开始接受先进的数据分析理念,并积极寻找基于大数据技术所实现的决策驱动的解决方案。这些走在前沿的企业,其数据化建设道路上的开放、包容的心态远超我的想象:一些产品线丰富、业务流程复杂、信息化程度较高的企业,如聚美优品、融360、华润万家、中邮钱包等,经过层层专业甄选,最终选择了神策数据这种“小而美”的年轻企业。
打造中国的“PayPal黑帮”
在过去的一年中,借助专业资料,我深入研究了三家公司:联想、PayPal、Google。我弄清了几个问题:谷歌为何能够聚集起行业顶尖牛人?个人电脑时代的踏浪者——联想左右其发展的企业基因有哪些?究竟,“PayPal黑帮”是如何一统硅谷的?
联想踏浪而起的背后是企业敏锐的洞察力、保守而敢于冒险、善于学习的精神;Google依靠海量前沿科学资源、强烈的学术氛围吸引越来越多行业聪明、求知欲强的顶尖牛人加入。我希望,每位神策人成为中国的“PayPal黑帮”:
聚,能左右中国的数据发展进程;
散,能创建自己的独角兽王国。
2016年4月19日,神策数据宣布2600万的A轮融资,同时公布神策分析(Sensors Analytics,神策数据产品)新功能,这是首次对外正式发声。有了红杉中国、明势资本等资本背书,随着产品价值得到越来越多的企业认可,在大半年后的今天,神策数据已赢得了200余家付费客户。
吴军在书中说:“每一个人都应该看清楚浪潮,赶上浪潮,如此,便不枉此生。” 潮起时,神策数据应运而生,致力推进中国大数据建设进程。大数据的价值正在互联网企业中各个环节中渗透,大数据驱动能力将成为企业重要变革和核心竞争力。2017年至未来,神策数据将持续深耕用户行为分析领域,将这一件事情做到极致,这是神策数据紧随并引领浪潮的内生动力。
桑文锋,神策数据创始人兼CEO,浙江大学计算机科学与技术专业硕士,在百度任职8年,从无到有构建了百度用户日志大数据平台,覆盖数据收集、传输、元数据管理、作业流调度、海量数据查询引擎及数据可视化等。2015年4月离职后创建神策数据,帮助互联网公司实现数据驱动。
注:本文由 桑文锋 投稿数据猿发布。