数据湖、数据仓库、数据中台,有什么区别?

随着大数据技术在各领域大量的运用,数据管理工具也得到了飞速的发展,从最初决策支持系统(DSS)到商业智能(BI)、数据仓库,然后逐步发展并出现了功能更强大的数据湖、数据中台。但是对于这些概念很容易混淆,下面就主要谈谈他们之间的区别便于读者对数据平台相关的概念有全面的认识。

第一数据仓库

说到数据仓库就不得不提一下BI系统

BI(Business Intelligence)中文名称是商业智能,百度上的解释是:“用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。”简单的说就是企业充分利用其数据进行多维度分析,掌握自己公司的经营状况,帮助业务人员和高层人员做分析和决策,它起源于决策支持系统(decision support system),其展现形式更多以报表方式实现。

一,数据仓库的定义

数据仓库是一个面向主题的、集成的、随着时间不断变化、非易失性的,随时间变化的用来支持管理人员决策的数据集合,就是为BI应用服务的。

面相主题:就是进行决策分析时重点关注的方向,比如某个分析的主题是收入,和库存。那么数仓里的数据都是以收入和库存在主题组织的。

集成:这个比较容易理解就是存在数据仓库里的数据都是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。

随着时间不断变化:是指数据仓库中的数据是一段时间以来的数据总和随着时间的变化数据还是会进行更新,通过这些更新的数据信息,才可以对企业的发展历程和未来趋势做出定量分析和预测。

非易失性:数据仓库中的数据通常是一次载入和访问的,并且数据在一定意义上不进行更新。这和上面的并不矛盾只是参考的东西不同而已。

二,数据仓库的定位和缺点

传统的数仓只是满足领导数据决策的需要,因此更多的体现在报表输出,使用者以小部分的业务人员和决策层为主,新需求的开发周期以月甚至到年为计。数据处理能力有限,很少有EDW的数据容量超过1TB,因此不能对基础数据进行跨域的处理(原因是RMDBS对大数据量的关联join处理耗时非常长),因此要对新的指标分析的时候需要从基础数据重新生成汇总表,耗时耗力,使用方法上无法实现跨数据集或数据域的处理。

第二,数据湖

首次由Dan Woods在2011年7月福布斯上的《Big Data Requires a Big, New Architecture》中提出,它提出CIO们应该考虑数据湖(“Data lake”)这个思维方式来替代数据仓库(“data warehouse”)的思维,它的架构和理念是把原先不存储的基础数据也存储起来,汇总各个数据源的数据方便以后的数据分析和查询,但是数据湖只是解决了聚集问题,并没有替代数据仓库,而是发展成了一个和数仓相互补充的一个数据管理工具。

目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。所以数据可以存储结构化和非结构化的数据。

结构化和非结构化数据的区别

结构化数据就是通常数据仓库存的数据,它们通常以二维表的形势或者文档型存储的数据。非结构化数据种类比较多有图形、网页、音频、视频等。

第三数据中台

数据中台的概念是最早提出的是阿里巴巴,由于阿里巴巴业务发展迅速,比如阿里双十一等业务的数据处理事相当庞大的,为了保证日常性的多个业务前台的数据需求,应对大规模数据线性可扩展问题而在技术和组织架构等方面采取的一些创新。

数据中台的概念

数据中台是指通过企业内外部多源异构的数据采集、治理、建模、分析,应用,使数据对内优化管理提高业务,对外可以数据合作价值释放,成为企业数据资产管理中枢。数据中台建立后,会形成数据API,为企业和客户提供高效各种数据服务。中台的战略核心是数据共享,并不只是一个数据平台,而是让数据在数据平台和业务系统形成一个良性的闭环,实现数据之间紧密交互。

数据中台由一系列的工具和产品组成,阿里云数据中台以智能数据构建与管理Dataphin产品、商业智能QuickBI工具和企业参谋产品为主体等一系列工具组成。

数据中台定位于计算后台和业务前台之间,这个概念也很好理解,前台和后台之间自然就是中台了,如下图所示:

数据仓库和数据湖的区别

存储方式的不同

在储存方面上,数据湖中数据为非结构化的,所有数据都保持原始形式。存储所有数据,并且仅在分析时再进行转换。

数据处理的不同

数据仓库就是数据通常从事务系统中提取。在将数据加载到数据仓库之前,会对数据进行清理与转换。在数据抓取中数据湖就是捕获半结构化和非结构化数据。而数据仓库则是捕获结构化数据并将其按模式组织。

数据处理的目的不同

数据湖的目的就是数据湖非常适合深入分析的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就是数据仓库非常适用于月度报告等操作用途,因为它具有高度结构化。 在架构中数据湖通常,在存储数据之后定义架构。使用较少的初始工作并提供更大的灵活性。在数据仓库中存储数据之前定义架构。

如下图

数据湖和数据中台的区别

数据中台与数据湖相比,数据中台强调方法论,组织和工具的建设。非常强调数据赋能业务,衍生出很多的数据业务产品。比如在阿里面向商家的生意参谋,面向人物属性的标签服务、面向行业小二的行业洞察…这些都极大的扩展了数据价值,其次数据中台按分析的原子指标和派生指标方式做计算并存储在Maxcompute平台上,如有及时查询要求会同步分析结果数据给MPP或其他DB。这块在数据顶层设计,全域资产、统一技术、产品业务上与Datalke及EDW是不同的。

数据中台整体技术架构上采用云计算架构模式,将数据资源、计算资源、存储资源充分云化,并通过多租户技术进行资源打包整合,并进行开放,为用户提供“一站式”数据服务。所以和它和数据湖数据仓库还是有很大的区别的。

(0)

相关推荐