领读|解决方案介绍---数据平台的那些事(上)
关键词:数据分析、报表系统、数据平台、集算器
当'智能’和'大数据’的压路机压过来的时候,要么你成为压路机的一部分,要么你就成为路的一部分。
数据让企业从连接走向智能
移动互联网时代创造了面向连接的商业繁荣和革命,它促使企业诞生了很多很有意思的应用,包括各类共享应用、O2O等等。每一个成功的应用都会带来越来越多的数据沉淀,而围绕着这些数据的深度应用让各类App 变得越来越智能。
没有人可以计算出这件事情的市场空间有多大,这个智能不是某几个厂商的游戏,而是未来所有的 App运营者的游戏。
大数据和云计算是一次 IT 技术的革命,可能还是一次颠覆。这种颠覆会不会颠覆我们人类本身都已经成了现时的一个话题。
它们的深度发展已经开始在IT市场上显现其发酵的结果,这个结果就是“在过去把IT的交付方式有硬件转为软件的基础上,它再次把“由软件变成了服务”,这是一个伟大到令人惊讶的变革。
这种变革的结果造成了当今的软件企业出现了两种并存的商业模式:
老牌的集成商和大型的用户在合作伙伴的选择上大多还是偏爱“软件合作伙伴”
新兴的企业选择合作伙伴更希望是“服务合作伙伴”
随便在度娘上查询,几乎有点头脑的企业,都在谈“智能”和“大数据”,但是事实上,大多数公司是只有一份印刷精美的企业目录,实际是忽悠。更遗憾的是还有不少企业认为“智能”和“大数据”跟自己没毛关系。
可以毫不夸张的说:“当'智能’和'大数据’的压路机压过来的时候,要么你成为压路机的一部分,要么你就成为路的一部分。”未来十年,智能和大数据毫无悬念的是非常非常重要的一件事情。你是准备成为路还是压路机,就在现在必须作出抉择!
未来的企业一定是数字化的。为什么?当企业把它的业务从线下搬到了线上,它和客户的连接已经开始了数字化的旅程,所有的沟通过程都会被记录,它使得企业对用户的了解是前所未有地细致和全面。或许,某一天,一个客户来到你的公司,你会说:“根据你在淘宝、京东和其他场所的消费习惯和信用,本企业对您的欢迎指数是27.3%”。想想看,这是多么可怕的事情。
未来的竞争一定是面向数据的竞争,数据累计得越多,你对用户越了解,你的业务就越来越具有独特性,别人难以COPY。
需要澄清的数据误区
关于数据,很多文科出生的各种V们其实给出了很多让人误解的信息, 在进入实际的技术范畴之前,笔者不得不花一点笔墨来纠正和普及一下几个概念。尤其是对于“大数据”,需要澄清的是:数据大不等于大数据、大数据不是在找出因果关系。
首先是:数据≠信息≠表现形式≠知识。可以形象的用下图来说明:
其次是:把数据分析≠大数据分析。下图的新闻经常可以看到,都是被标以大数据的标题党!
像类似的案例很多,将简单的统计分析,特别只是应用了描述统计的简单思路,来误导大数据的应用,这是绝对错误的!
再次就是:大数据下的“数据孤岛”。常听到很多的企业说:“我们服务了多少多少企业和客户,从业多少多少年了,积累了大量的大数据资源,我们以一个大数据公司”,实际上,他们的好多类型的海量数据资源,是在框架性协议的支撑下获得的,甚至根本就没有获得客户的许可下获得的,这些数据是不可以发布,甚至是不可以使用的,其数据资源很难得到共享。
客户的企业对自己的数据是可以合法使用的,然而,不同行业和不同部门产生与储存的数据资源,很难共享,当然更不可能公开。每个企业的大数据分析,主要是为本企业的发展而服务。一个可以对比过去IT架构的新的孤岛再次在数据时代诞生了,它就是“数据孤岛”。
更有意思的是,全球数据量正以平均年增长率50%的速度增长,而当前数据总量的80% 都是产生于最近两年。面对这一现象,很多的数据平台的数据都还是几年前的数据,这些海量的新的数据我们还来不及看到,更无法获得这些大数据资源,和从这些鲜活的数据中产生决策分析。
最后就是:大数据下的“机构孤岛”。随着大数据市场的不断发展,大数据产业生态体系的建设也在不断完善,各企业甚至企业各部门都拥有自己的数据,但他们的目标尚欠一致,很难共享。实现大数据贡献和产业化的关键在于数据公开性、数据标准等应用难题。这些问题可归一为:如何构建大数据资源共享平台。
“智能”和“大数据”时代企业面临的挑战
观念带来的挑战。由于数据的存储是要存储空间的,很多企业的数据都不愿意存。随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:
1、业务系统现在平均每天存储2万张图片,磁盘空间每天消耗10G;
2、平均每天产生签约视频文件500个,每个平均250M,磁盘空间每天消耗125G;
认为这些数据是负担,觉得每个月要花掉好多钱。但是,在未来十年面向智能的时候,这些数据却是资本、是财产。这是观念的挑战,可能也是最大的挑战。
数据产生价值链条长。不知道数据怎么用,或者没有支撑的数据平台。对于很多公司来说,把数据变成数据产品的链条是非常长的。整个数据从埋点、采集、分析、形成一系列产品,整个链条涉及的部门和工种非常多。涉及到业务部门、数据平台部门、数据分析与数据产品部门,而后又回到业务部门作用到线上,这个周期非常长。这决定了要让数据产生价值很困难。
多元化的场景。不同的企业的业务场景不同,导致我们的数据产品很难用统一的模式产生。结构化、半结构化、文本、各类传感器的数据、音频、图片、视频等富媒体数据混杂,有分别的存储在不同的数据库、不同的地域中,如何处理这些数据,没有一个实时计算的数据平台几乎是很难实现的。大数据时代的业务场景是多元化的,不同的数据产品,面向的场景很不一样。围绕这些富媒体为存储的核心对象来构建场景,清晰地及时地呈现业务,是非常重要的一项工作。
面对这些问题,企业在构建数据平台时是十分的头疼的。为什么?我们可以用一句很经典的关于大数据的话来说明:
“Bigdata is like teenage sex, everyone talks about it, nobody really knows how todo it, everyone thinks everyone else is doing it, so everyone claims they aredoing it.”
翻译过来就是:大数据就像十几岁的少年眼中的性行为,每个人都在谈论它,但没人真正知道怎么做,每个人都以为除了自己之外的每个人都在使用它,所以每个人都装作自己很了解它"。
关于数据变现,有一个更有意思的例子,它告诉我们只要合理的使用数据,我们可以把“数据产生价值链条长”的问题简化,合理的数据平台有助于缩短这个链条,让数据为企业产生价值。这个例子是:
有位风水大师一卦3万多!这位大师怎么做到的?他在美容院购买女性客户的信息,然后整理这些女性与美容师聊天时透露的信息,之后再做关联整理分析。然后,再找机会接触这些女性进行算卦,道出你的年龄、家庭、身体状况、是否手术、哪里有痣、兴趣爱好等。这些女性当时就觉得“真神”!之后形成口碑传播,进行忽悠,真正的数据产生价值!
数据建设之道:企业级基础数据平台
我们首先回顾下国内的数据平台的建设历程。数据平台包括两部分,即平台建设和管控建设。
数据仓库在国外是非常成熟的体系,但是引到国内之后,不管从架构体系还是数据模型上来说,对于国内的企业来讲有很多不适应的地方。
最初,我们可以看到其应用相对来说很有限,做的较多的是客户单一视图或一些简单报表的应用。以润乾软件为代表的报表类公司应运而生,他们在这段时期内蓬勃发展,迅速的占领了国内的绝大部份市场。
后来,进入了大规模应用建设和管控阶段。这时,一方面,随着基础建设的完成,数据平台能发挥什么价值,能帮助业务做什么之类的问题越来越受到业务部门的质疑和询问。很多的企业开始推动应用,包括CRM、ERP和风险类的简单应用。另一方面,经常面临的问题是数据质量的问题,造成“垃圾进垃圾出”。数据质量不好造成的结果是你对业务的分析不但起不到好的效果,相反还有误导的作用。这时候做的较多的是客户复杂视图或一些中国式的复杂报表的应用。这时候,以润乾软件为代表的报表类公司得以壮大,他们的报表工具迅速的获得了上万家企业的青睐,并在此基础上,完成了基于报表的加速计算工具、自动填报系统、敏捷BI等一系列的计算工具,帮助客户在这一阶段建立较好的数据平台。
再后来,进入了现在的大数据时代的数据平台建设。这时,一方面对于数据的需求,包括历史的整合的数据,同时基于数据平台的数据集市也越来越多。另一方面是随着数据平台的建设,互联网对业务的冲击越来越大,企业开始学习转型,尤其是关注业务的及时性,关注从T+N向T+0转变。
通过整个的发展阶段,可以看到:
1、数据要求越来越高,数据的追加难度越来越大。
2、随着数据越来越多之后,数据质量问题越来越明显。
3、不能为了建平台而建平台,不能只关注技术本身,一定要和应用结合。
4、随着应用的要求越来越高,平台的整合性越来越强。
最开始的时候,大企业建设数据平台,不管人还是硬件软件都投入很大,如果把这样的模式复制到其他企业,可能是致命的,不管是IT部门还是业务部门,都根本无法承担这样一个投资。
现在的企业普遍要求投资小,见效快。提出要求相应的明晰数据,及时反映业务的状态,这也是经常各企业建数据平台的驱动力。
目前的大数据平台建设中,碰到的一个十分严重的问题是“数据质量差”。数据质量差到什么地步?可以说是直接影响到业务使用。试想,一张报表里有50%的字段是没有数的,或者是错的,这个业务根本就没有办法确诊出任何业务情况。这就要求我们在建数据平台时,一定要考虑相应的质量检查规则,考虑后续的调整测试,能够尽量的贴近业务的使用。这个过程我们称之为ETL。
建设数据平台的驱动力,无非是从监管系统要求、内部分析要求两方面来看,达到数据的转换清晰的目的,并在这个基础上建立数据集市。数据平台的策略以及规划包含了软件、硬件、EIT工具、调度工具等。
整个数据平台建设包括基础建设阶段、业务价值阶段和应用推广阶段。既要考虑到:
1、数据平台建设的完整性,又要考虑到整个数据管控和应用
2、在此基础上需要逐渐发挥它更大的业务价值,包含需要支持更多应用和数据分析
3、把数据推给业务用户,业务用户能够从传统推送的方式到拉动的转换
数据平台建设它包含以下几个方面:
1、统一的存储结构,统一的角度结构,统一的监控结构,数据交换结构。
2、模型建设:最重要是两块,整合层和汇总层。这是我们后续应用扩展的基础。
3、应用类
备注:文中部分材料根据网络资料整理,有疑问请联系作者。
“历史文章阅读”
小说:《丹峰白露》相约每周五,持续更新ing...
聚贤.堂近期招募信息