领读|解决方案介绍---数据平台的那些事(中)

关键词:数据分析、报表系统、数据平台、集算器
当'智能’和'大数据’的压路机压过来的时候,要么你成为压路机的一部分,要么你就成为路的一部分。
数据平台架构
数据平台建设首先要从系统架构、数据架构、物理架构、运维架构四个方面认真的考量,其次是关于数据层的基础层模型和汇总层模型的细致设计,它们将直接关系到数据的可用性、效率和业务使用等的关键。
企业的数据平台在初期时不宜做大而全,应该是做小而精,建议是客户关注三点:整合落地,机构落地和指标落地。这里有六个模块需要着重关注,他们是:ETL、交换,调度,数据安全和管控、管控策略和方法。
企业数据平台合理的架构是什么样?有不少前期建立了数据平台的客户,在运行了一段时间后,迷糊了!它们会问:数据集市和平台的关系是什么?数据集市存储是怎样的?应用和平台怎么切分的?等等。
数据平台的建设需要认真设计以下五个因素:
1. 数据集中和共享。企业及基础数据平台是公共的、中性的,数据一定要做到集中和共享,否则就失去了它的意义。
2. 数据标准统一。如果每个集市有自己的一套标准,你的架构会越来越乱。
3. 数据管理策略统一。方向是共性的数据一定要下沉,个性的数据逐渐上浮,也就是说共性数据都尽量落在基础数据平台上,个性数据可以逐渐落在各个集市上处理。
4. 减少数据复制。
5. 长期和短期相结合。一个完整的企业级基础数据平台包含几个部分,数据存储平台(包含了相应的数据架构,数据存储策略以及应用切分点等)、应用(包含了报表,数据挖掘,系统应用等)、数据管控(包含质量管理办法,比如数据标准等等)、数据交换采集调度平台、数据处理(包含了实施数据区、大数据处理,历史数据存储等等)。这类混合架构,既要考虑结构性数据的处理方法,也要考虑了非结构化数据处理和文本等混合运算方法。
这个结构能够帮助我们清晰的看到后续要发展成什么样,我们不一定开始就完成这样一个体系,但是我们考虑好这些相应的数据项目,包括以后扩展接口。
数据管控和平台的关系
数据管控和数据平台的关系需要在建设初期就认真的考虑。首先是数据标准,数据标准的落地大家都知道,我们整个数据从业务系统产生到后台分析系统,标准最好的地方一定是源头落地,对于后续整个数据问题是最好的解决。否则,今后在碰到新问题的时候,要在整个业务系统里头让它改动做调整,这个推进力度就太大了。
润乾软件曾经帮助一个企业修订一个应用,这家企业自己光是改动一个识别代码就花费了近100个工作人天,而且还不稳定!润乾软件采用新的计算工具后,仅用半天时间,几十行代码完成了这件事。但是,这也是一个痛苦的工作!
现在有很多的集成商,面对这个问题,经常采用把数据标准落地往后移的方法。当然,这样做,推动项目建设更容易,从管理型应用的方向来讲,还是解决了很大一部分问题。但是,数据的源头问题可能仍然没有解决。
有了标准才有数据质量,质量是数据满足业务需求使用的程度。有了标准之后,能够衡量数据怎样,可以在整个平台每一层可以做技术上的校验或者业务上的校验,可以做到自动化的配置和相应的校验,生成报告来帮助我们解决问题。
数据平台的应用集市
建设数据平台的最终目的是支持业务应用。

业务应用是数据平台最大的生命力,目前企业数据平台的应用可以概括为:营销和客户关系管理模块、合规风险管理、财务绩效、运营管理四个方面。基于这四方面,有些企业的应用达到了几千种。应用多了,要注意以下问题:
1、更加关注数据整合。过去看到过一些企业,做着做着数据又分散了,后续的维护包括数据标准的统一越来越困难;
2、数据质量的有效提升。一旦发现数据质量问题,特别是影响到业务使用时,一定要第一时间跟业务沟通做好相关的解决办法,这个是让业务人员能够持续性的使用数据平台,让其发挥价值的很重要一步;
3、应用之间的关联关系。比如说你要做一次市场推广的销售,如何定义推销的产品的价格呢?你要算产品的贡献度,要知道管理会计成本……等等,要关联到这些应用。所以,在建设初期一定要有清晰的梳理,否则要算贡献度时,可能成本没有,最后算出来的数只能是相对数,这样的数其实度业务来讲意义并不是很大。
谈到应用,过去至少谈了10年的应用有:报表、应用系统、灵活查询、数据挖掘,这个实际是传统的数据平台使用的四种模式。国内做的不错的企业有润乾和帆软。
今天我们建设数据平台,一定要把传统的“推式服务”往“拉式服务”走。也就是说要把对报表和应用系统的支持,逐渐的让业务人员能够主动喜欢用,让他自己有一个相应空间或者模式。这样,我们的数据平台价值才能发挥的更好,这个其实就是我们需要强调的:要在任何时候注重业务人员主动使用数据平台,要让计算更便捷、更高效,要能有洞悉业务的能力。这一点,润乾软件走在了前头。大家有兴趣可以参见“销盟”的另几篇文章,可以从中窥视到一斑。
数据平台建设的关注点
眼下这是热点,各个行业现在都在做这一块的试点。我们应该如何应对?之前使用最多的数据是结构化数据,对于非结构化数据,过去很多时候要发掘出来,需要花费的成本很高,也无法同时计算。
另一方面,数据平台的建设一定要有意识的逐步引导业务主动进行数据分析和探索,在任何时候千万不要把数据平台定义成储存,一定要有意识的告诉业务,我有什么样的数据,你能够发挥什么样的业务价值,因为只有在这样的情况下,数据平台的生命力才会越来越强。
随着城企业业务的发展,企业内部业务系统的处理日益加重,处理逻辑日益复杂。若以传统方式直接从数据来源系统供给分析类业务系统,而又不影响各个业务系统的处理效率,已经不现实。此外,直接向分析类业务系统提供来源系统数据,则使他们之间耦合度过高,也十分不利于系统的维护和工作开展。
过去的业务体系和IT架构不同的业务分布在网络的不同位置,没有形成逻辑和物理的数据集中,给数据共享、数据管理和数据应用带来很多不便。数据平台建设,通过对应用咨询、规划、部署对数据规范化定义,实现数据的唯一性、准确性、完整性、规范性和实效性。实现数据的共享共用,解决数据层面的孤岛问题。整合企业各个业务系统,形成数据中性。
这就要求,建立的数据平台能够整合各个业务系统,从物理和逻辑上将数据集中起来,同时数据平台起到了物理隔离生产系统,减轻对生产系统压力,提升效率。它包含:数据平台的数据模型以满足了业务系统的应用需求;ETL系统效率不高、处理时间长、JAVA或Sql语句复杂等问题;管理驾驶舱系统建设,包括众多的指标及管理驾驶舱系统前端界面等;各类新报表和复杂大报表的计算效率和灵活填报等;减少系统维护的复杂性,支持后续增加新数据或功能的开发工作;和上下游系统接口的耦合设计;利于扩展等等。
为何需要搭建数据平台
企业要做数据分析和报表系统,首先要考虑数据的准备,这其实就是数据平台的建设。最近接触了几个客户都处于这一环节,他们在方案选型过程中,也是充满了纠结。
有人也许会问:业务跑的好好的,各系统稳定运行,为何还要搭建企业的数据平台?
哈哈,这样的问题,心里想想就可以了,不要大声问出来。
笔者来直接回答一下,企业一般在什么情况下需要搭建数据平台,从而实现对各种数据进行重新架构。
从业务上的视角来看:业务系统过多,彼此的数据没有打通。这种情况下,涉及到数据分析就麻烦了,可能需要分析人员从多个系统中提取数据,再进行数据整合,之后才能分析。一次两次可以忍,天天干这个能忍吗?人为整合出错率高怎么控制?分析不及时效率低要不要处理?
从系统的视角来看:业务系统压力大,但很不巧,数据分析又是一项比较费资源的任务。那么自然会想到的,通过将数据抽取出来,独立服务器来处理数据查询、分析任务,来释放业务系统的压力。
从数据处理性能的视角看:企业可以越做越大,与此同时,数据也会越来越大。可能是历史数据的积累,也可能是新数据内容的加入,当原始数据平台不能承受更大数据量的处理时,或者是效率已经十分低下时,重新构建一个大数据处理平台就是必须的了。
这三种情况有时并非独立的,往往是其中两种甚至三种情况同时出现。
这时候,一个数据平台的出现,不仅可以承担数据分析的压力,还可以对业务数据进行整合,从而从不同程度上提高数据处理的性能,基于数据平台实现更丰富的功能需求。
大数据分析的成功需要的不仅仅是原始数据,还需要好的且高质量数据。更准确的说法应该是,大数据的成功需要那些准备好的数据。对于分析,“进来是垃圾,出去也是垃圾”,这意味着如果你把大量参差不齐的数据放到分析解决方案,你将会得到不好的结果。
市面上很多现有的商业智能产品声称可以简化分析过程,但事实是,大多数数据科学家和数据分析师花费大量时间来为分析准备数据。笔者认为,数据分析应该是找出数据的含义,而不是清理数据,清理数据应该是交由工具区完成的。
这里推荐一个工具---集算器,它提供数据整个生命周期的准备,包括探索、清理、更换、形成和发布数据以进行分析。该产品还允许不同的数据团队共享相同的数据集,让不同的团队可以同时编辑和访问多个设备的信息。该产品还是一个管理解决方案,它可以追踪项目内的每个步骤,并有完全的重放功能来审查已经完成的更改。
集算器的用户可以提高对大型数据集的分析生产率,同时最小化数据蔓延的危险。该产品既可作为云服务—确保数据准备的灵活性,也可以作为内部部署的解决方案,它可以整合到Hadoop、数据库和各种报表呈现工具中,以更快获取价值。
大数据现在是一个热门话题,但企业和IT领导者需要明白,分析糟糕的数据意味着糟糕的分析结果,可能会造成错误的商业决策。正因为如此,笔者希望看到数据准备技术将会开始像大数据一样热门。
备注:文中部分材料根据网络资料整理,有疑问请联系作者。

“历史文章阅读”
小说:《丹峰白露》相约每周五,持续更新ing...
聚贤.堂近期招募信息