大数据开发面试之数据仓库
数据仓库的定义?
首先,用于支持决策,面向分析型数据处理;其次,对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且大数据培训存放在数据仓库中的数据一般不再修改。
数据仓库(Data Warehouse)是一个面向主题的(subject oriented)、集成的(integrated)、相对稳定的(non-volatile)、反应历史变化(time variant)的数据集合,用于支持管理决策(decision making support)。
数据仓库和数据库的区别?
从目标、用途、设计来说
数据库是面向事物处理的,数据是由日常的业务产生的,常更新;数据仓库是面向主题的,数据来源多样,经过一定的规则转换得到,用来分析。
数据库一般用来存储当前事务性数据,如交易数据;数据仓库一般存储的历史数据。
数据库的设计一般是符合三范式的,有最大的精确度和最小的冗余度,有利于数据的插入;数据仓库的设计一般不符合三范式,有利于查询
如何构建数据仓库?
数仓模型的选择是灵活的,不局限于某种模型方法。
数仓数据是灵活的,以实际需求场景为导向。
数仓设计要兼顾灵活性、可扩展性,要考虑技术可靠性和实现成本。
系统分析,确定主题。通过与业务部门的交流,了解建立数仓要解决的问题,确认各个主题下的查询分析要求
选择满足数据仓库系统要求的软件平台。选择合适的软件平台,包括数据库、建模工具、分析工具等
建立数据仓库的逻辑模型。确定建立数据仓库逻辑模型的基本方法,基于主题视图,把主题视图中的数据定义转到逻辑数据模型中
逻辑数据模型转换为数据仓库数据模型
数据仓库数据模型优化。随着需求和数据量的变化进行调整
数据清洗转换和传输。业务系统中的数据加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。
开发数据仓库的分析应用。满足业务部门对数据进行分析的需求。
数据仓库的管理。包括数据库管理和元数据管理。
什么是数据中台?
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台吧数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
这些服务和企业的业务有较强的关联性,是企业所独有且能复用的,它是企业业务和数据的积淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争的优势所在。
数据中台通过整合公司开发工具、打通全域数据、让数据持续为业务赋能,实现数据平台化、数据服务化和数据价值化。数据中台更加侧重于“复用”与“业务”。
数据中台、数据仓库、大数据平台的关键区别是什么?
基础能力上的区别
数据平台:提供的是计算和存储能力
数据仓库:利用数据平台提供的计算和存储能力,在一套方法论指导下建设的一整套的数据表
数据中台:包含了数据平台和数据仓库的所有内容,将其打包,并且以更加整合以及更加产品化的方式对外提供服务和价值。
业务能力上的区别
数据平台:为业务提供数据主要方式是提供数据集
数据仓库:相对具体的功能概念是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表
数据中台:企业级的逻辑概念,提现企业数据产生价值的能力,为业务提供服务的主要方式是数据API
总的来说,数据中台距离业务更近,数据复用能力更强,能为业务提供速度更快的服务。数据中台是在数据仓库和数据平台的基础上,将数据生产为一个个数据API服务,以更高效的方式提供给业务。数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。
大数据的一些相关系统?
数仓设计中心:按照主题域、业务过程,分层的设计方式,以维度建模作为基本理论依据,按照维度、度量设计模型,确保模型、字段有统一的命名规范
数据资产中心:梳理数据资产,基于数据血缘,数据的访问热度,做成本的治理
数据质量中心:通过丰富的稽查监控系统,对数据进行事后校验,确保问题数据第一时间被发现,避免下游的无效计算,分析数据的影响范围。
指标系统:管理指标的业务口径、计算逻辑和数据来源,通过流程化的方式,建立从指标需求、指标开发、指标发布的全套协作流程。
数据地图:提供元数据的快速索引,数据字典、数据血缘、数据特征信息的查询,相当于元数据中心的门户。
如何建设数据中台?
数据中台在企业落地实践时,结合技术、产品、数据、服务、运营等方面,逐步开展相关工作。
理现状。了解业务现状、数据现状、IT现状、现有的组织架构
定架构。确认业务架构、技术架构、应用架构、组织架构
建资产。建立贴近数据层、统一数仓层、标签数据层、应用数据层
用数据。对数据进行输出、应用。
数据运营。持续运营、持续迭代。
中台建设需要有全员共识,由管理层从上往下推进,由技术和业务人员去执行和落地是一个漫长的过程,在实施数据中台时,最困难的地方就是需要有人推动。
数据湖的理解?
数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
数仓最重要的是什么?
个人认为是数据集成。
企业的数据通常是存储在多个异构数据库中的,要进行分析,必须先要对数据进行一致性整合。
集成整合后才可以对数据进行分析、挖掘数据潜在的价值。
概念数据模型、逻辑数据模型、物理数据模型
概念数据模型设计与逻辑数据模型设计、物理数据模型设计是数据库及数据仓库模型设计的三个主要步骤。
概念数据模型CDM
概念数据模型是最终用户对数据存储的看法,反映了最终用户综合性的信息需求,以数据类的方式描述企业级的数据需求。
概念数据模型的内容包括重要的实体与实体之间的关系。在概念数据模型中不包含实体的属性,也不包含定义实体的主键
概念数据模型的目标是统一业务概念,作为业务人员和技术人员之间沟通的桥梁,确定不同实体之间的最高层次的关系
逻辑数据模型LDM
逻辑数据模型反应的是系统分析设计人员对数据存储的观点,是对概念数据模型的进一步的分解和细化。逻辑数据模型是根据业务规则确定的,关于业务对象、业务对象的数据项以及业务对象之间关系的基本蓝图。
逻辑数据模型的内容包括所有的实体和关系,确定每个实体的属性,定义每个实体的主键,指定实体的外键,需要进行范式化处理。
逻辑数据模型的目标是尽可能详细的描述数据,但并不考虑在物理上如何实现。
物理数据模型PDM
物理数据模型是在逻辑数据模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放。
物理数据模型的内容包括确定所有的表和列,定义外键用于确认表之间的关系,基于用户的需求可能要进行反范式化等内容。
SCD的常用处理方式?
slowly changing dimensions缓慢变化维度
不记录历史变化信息
添加列来记录历史变化
新插入数据行,并添加对应标识字段来记录历史数据。拉链表。
元数据的理解?
狭义来讲就是用来描述数据的数据
广义来看,除了业务逻辑直接读写处理的业务数据,所有其他用来维护整个系统运转所需要的数据,都可以较为元数据。
定义:元数据metadata是关于数据的数据。在数仓系统中,元数据可以帮助数据仓库管理员和数据仓库开发人员方便的找到他们所关心的数据;元数据是描述数据仓库内部数据的结构和建立方法的数据。按照用途可分为:技术元数据、业务元数据。
技术元数据
存储关于数据仓库技术细节的数据,用于开发和管理数据仓库使用的数据
数据仓库结构的描述,包括数据模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容
业务系统、数据仓库和数据集市的体系结构和模式
由操作环境到数据仓库环境的映射,包括元数据和他们的内容、数据提取、转换规则和数据刷新规则、权限等。
业务元数据
从业务角度描述了数据仓库中的数据,他提供了介于使用者和实际系统之间的语义层,使不懂计算机技术的业务人员也能读懂数仓中的数据。
企业概念模型:表示企业数据模型的高层信息。整个企业业务概念和相互关系。以这个企业模型为基础,不懂sql的人也能做到心中有数
多维数据模型。告诉业务分析人员在数据集市中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。
业务概念模型和物理数据之间的依赖。业务视图和实际数仓的表、字段、维的对应关系也应该在元数据知识库中有所体现。
元数据管理系统?
元数据管理往往容易被忽视,但是元数据管理是不可或缺的。一方面元数据为数据需求方提供了完整的数仓使用文档,帮助他们能自主快速的获取数据;另一方面数仓团队可以从日常的数据解释中解脱出来,无论是对后期的迭代更新还是维护,都有很大的好处。元数据管理可以让数据仓库的应用和维护更加的高效。
元数据管理功能
数据地图:以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展示,并通过不同层次的图形展现。
元数据分析:血缘分析、影响分析、实体关联分析、实体差异分析、指标一致性分析。
辅助应用优化:结合元数据分析功能,可以对数据系统的应用进行优化。
辅助安全管理:采用合理的安全管理机制来保障系统的数据安全;对数据系统的数据访问和功能使用进行有效监控。
基于元数据的开发管理:通过元数据管理系统规范日常开发的工作流程
元数据管理标准
对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库
对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后通过建立标准的元数据交换格式,实现元数据的集成管理。
数仓如何确定主题域?
主题
主题是在较高层次上将数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对企业中某一宏观分析领域所涉及的分析对象。
面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。
主题是根据分析的要求来确定的。
主题域
从数据角度看(集合论)
主题语通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域的确定由最终用户和数仓设计人员共同完成。
从需要建设的数仓主题看(边界论)
主题域是对某个主题进行分析后确定的主题的边界。
数仓建设过程中,需要对主题进行分析,确定主题所涉及到的表、字段、维度等界限。
确定主题内容
数仓主题定义好以后,数仓中的逻辑模型也就基本成形了,需要在主题的逻辑关系中列出属性和系统相关行为。此阶段需要定义好数据仓库的存储结构,向主题模型中添加所需要的信息和能充分代表主题的属性组。
如何控制数据质量?
校验机制,每天进行数据量的比对 select count(*),早发现,早修复
数据内容的比对,抽样比对
复盘、每月做一次全量
如何做数据治理?
数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如数据应该怎么进行规范,元数据该怎么来管理,每个过程需要那些系统或者工具来配合?
数据治理领域包括但不限于以下内容:数据标准、元数据、数据模型、数据分布、数据存储、数据交换、数据声明周期管理、数据质量、数据安全以及数据共享服务。
模型设计的思路?业务驱动?数据驱动?
构建数据仓库有两种方式:自上而下、自下而上
Bill Inmon推崇自上而下的方式,一个企业建立唯一的数据中心,数据是经过整合、清洗、去掉脏数据、标准的、能够提供统一的视图。要从整个企业的环境入手,建立数据仓库,要做很全面的设计。偏数据驱动
Ralph Kimball推崇自下而上的方式,认为数据仓库应该按照实际的应用需求,架子啊需要的数据,不需要的数据不要加载到数据仓库中。这种方式建设周期短,用户能很快看到结果。偏业务驱动
数据质量管理
数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等,通过改善了提高组织的管理水平使数据质量进一步提高。
数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。放过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题,从而提高企业数据变现的能力。
会遇到的数据质量问题:数据真实性、数据准确性、数据一致性、数据完整性、数据唯一性、数据关联性、数据及时性
什么是数据模型?
数据模型就是数据组织和存储的方法,通过抽象的实体以及实体间联系的形式来表达现实世界中事务的相互关系的一种映射,他强调从业务、数据存取和使用角度合理的存储数据。
为什么需要数据仓库建模?
数仓建模需要按照一定的数据模型,对整个企业的数据进行采集,整理,提供跨部门、完全一致的报表数据。
合适的数据模型,对于大数据处理来讲,可以获得得更好的性能、成本、效率和质量。良好的模型可以帮助我们快速查询数据,减少不必要的数据冗余,提高用户的使用效率。
数据建模进行全方面的业务梳理,改进业务流程,消灭信息孤岛,更好的推进数仓系统的建设。
OLAP和OLTP的模型方法的选择?
OLTP系统是操作事物型系统,主要数据操作是随机读写,主要采用满足3NF的实体关系模型存储数据,在事物处理中解决数据的冗余和一致性问题。
OLAP系统是分析型系统,主要数据操作是批量读写,不需要关注事务处理的一致性,主要关注数据的整合,以及复杂大数据量的查询和处理的性能。
3范式
每个属性值唯一,不具有多义性
每个非主属性必须完全依赖于整个主键,而非主键的一部分
每个非主属性不能依赖于其他关系中的属性
数据仓库建模方法?
有四种模型:ER模型、维度模型、Data Vault模型、Anchor模型。用的较多的是维度模型和ER模型。
ER模型
ER模型用实体关系模型描述企业业务,在范式理论上满足3NF。数仓中的3NF是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系的抽象。
采用ER模型建设数据仓库模型的出发点是整合数据,将各个系统中的数据按照主题进行相似性整合,并进行一致性处理。
ER模型特点:
需要全方位了解企业业务数据
实施周期较长
对建模人员要求教高
维度建模
维度建模按照事实表和维度表来构建数仓。
维度建模从分析决策的需求出发构建模型,为分析需求服务。重点关注用户如何快速的完成数据分析,可以直观的反应业务模型中的业务问题,需要大量的数据预处理、数据冗余,有较好的大规模复杂查询的响应性能。
事实表
发生在现实世界中的操作性事件,其产生的可度量数值,存储在事实表中。从最细粒度级别来看,事实表的一行对应一个度量事件。事实表表示对分析主题的度量。
事实表中包含了与各个维度表相关联的外键,可与维度表关联。事实表的度量通常是数值类型,且记录数不断增加,表数据量迅速增长。
维度表
维度表示分析数据时所用的环境。
每个维度表都包含单独的主键列。维度表行的描述环境应该与事实表行完全对应。维度表通常比较宽,是扁平型的非规范表,包含大量的低粒度的文本属性。
注意:
事实表的设计是以能够正确记录历史信息为准则
维度表的设计是以能够以合适的角度来聚合主题内容为准则
维度建模的三种模式
星形模型:以事实表为中心,所有的维度直接连接在事实表上。由一个事实表和一组维度表组成。
雪花模型:是对星形模型的扩展。雪花模型的维度表可以拥有更细的维度,比星形更规范一点。维护成本较高,且查询是要关联多层维表,性能较低
星座模型:基于多张事实表,多张事实表共享维度信息
维度建模步骤:
选择业务过程
选择粒度
选定事实表
选择维度
事实表的类型?
事实表有:事务事实表、周期快照事实表、累积快照事实表、非事实事实表
事务事实表
事务事实表记录的是事务层面的事实,保存的是最原子的数据,也称“原子事实表”。事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务记录一条记录。
周期快照事实表
以具有规律性的、可预见的时间间隔来记录事实。它统计的是间隔周期内的度量统计,每个时间段一条记录,是在事务事实表之上建立的聚集表。
累积快照事实表
累积快照表记录的不确定的周期的数据。代表的是完全覆盖一个事务或产品的生命周期的时间跨度,通常具有多个日期字段,用来记录整个生命周期中的关键时间点。
非事实型事实表
在维度建模的数据仓库中,有一种事实表叫Factless Fact Table,中文一般翻译为“非事实型事实表”。在事实表中,通常会保存十个左右的维度外键和多个度量事实,度量事实是事实表的关键所在。在非事实型事实表中没有这些度量事实,只有多个维度外键。非事实型事实表通常用来跟踪一些事件或者说明某些活动的范围。下面举例来进行说明。
第一类非事实型事实表是用来跟踪事件的事实表。例如:学生注册事件,学校需要对学生按学期进行跟踪。维度表包括学期维度、课程维度、系维度、学生维度、注册专业维度和取得学分维度,而事实表是由这些维度的主键组成,事实只有注册数,并且恒为1。这样的事实表可以回答大量关于大学开课注册方面的问题,主要是回答各种情况下的注册数。
第二类非事实型事实表是用来说明某些活动范围的事实表。例如:促销范围事实表。通常销售事实表可以回答如促销商品的销售情况,但是对于那些没有销售出去的促销商品没法回答。这时,通过建立促销范围事实表,将商场需要促销的商品单独建立事实表保存。然后,通过这个促销范围事实表和销售事实表即可得出哪些促销商品没有销售出去。这样的促销范围事实表只是用来说明促销活动的范围,其中没有任何事实度量。
事实表中通常要保留度量事实和多个维度外键,度量事实是事实表的关键所在。
非事实表中没有这些度量事实,只有多个维度外键。非事实型事实表通常用来跟踪一些事件或说明某些活动的范围。
第一类非事实型事实表是用来跟踪事件的事实表。例如:学生注册事件。
第二类非事实型事实表是用来说明某些活动范围的事实表。例如:促销范围事实表。
数仓架构为什么要分层?
分层可以清晰数据结构,使用时更好的定位和理解
方便追踪数据的血缘关系
规范数据分层,可以开发一些通用的中间层数据,能够减少极大的重复计算
把复杂问题简单化
屏蔽原始数据的异常。不必改一次业务就重新接入数据
数据分层思想?
理论上数据分为:操作数据层、数据仓库层、数据服务层。可根据需要添加新的层次,满足不同的业务需求。
操作数据层ODS
Operate Data Store操作数据存储。数据源中的数据经过ETL后装入ODS层。
ODS层数据的来源一般有:业务数据库、日志、抓取等。
数据仓库层DW
根据ODS层中的数据按照主题建立各种数据模型。
DW通常有:DWD、DWB、DWS
DWD: data warehouse detail细节数据层,是业务层和数据仓库的隔离层。
DWB: data warehouse base基础数据层,存储的是客观数据,一般用作于中间层。
DWS: data warehouse service服务数据层,整合汇总分析某个主题域的服务数据。一般是大宽表。
数据服务层/应用层ADS
该层主要提供数据产品和数据分析使用的数据,一般会放在ES、Mysql系统中供线上系统使用
数仓架构进化
经典数仓架构:使用传统工具来建设数仓
离线大数据架构:开始使用大数据工具来替代经典数仓中的传统工具
Lambda架构:在离线大数据架构的基础上,使用流处理技术直接完成实时性较高的指标计算
Kappa:实时处理变成了主要的部分,出现了以实时处理为核心的kappa架构
离线大数据架构
数据源通过离线的方式导入离线数仓中。下游应用根据业务需求选择获取数据的方式
Lambda架构
在离线数仓的基础上增加了实时计算的链路,并对数据源进行流式改造,实时计算去订阅消息队列,并推送到下游的数据服务中去。
Lambda架构问题:同样的需求需要开发两套一样的代码;资源占用增多
Kappa架构
kappa架构可以认为是lambda架构的简化版,移除了lambda架构中的批处理部分。
在kappa架构中,需求修改或者历史数据重新处理都通过上游重放完成
kappa架构最大的问题是流式重新处理历史数据的吞吐能力会低于批处理,但可以通过增加计算资源来弥补
总结
真实场景中,是lambda架构和kappa架构的混合。大部分实时指标通过kappa架构计算,少量关键指标用lambda架构批量计算
随着数据多样性的发展,数据库这种提前规定schema的模式显得力不从心。这时出现了数据湖技术,把原始数据全部缓存到某个大数据存储上,后续分析时根据需求去解析原始数据。简单来说,数据仓库模式是schema on write,数据湖模式是schema on read
OLAP简介
OLAP(On-line Analytical Processing),联机分析处理,其主要的功能在于方便大规模数据分析及统计计算,对决策提供参考和支持。
特点:数据量大、高速响应、灵活交互、多维分析
OLAP分类
存储类型分类
ROLAP(RelationalOLAP)
MOLAP(MultimensionalOLAP)
HOLAP(HybridOLAP)
处理类型分类
MPP架构
搜索引擎架构
预处理架构
开源OLAP解决方案
Persto、SparkSQL、Impala等MPP架构和ROLAP的引擎
Druid和Kylin等预处理架构和MOLAP的引擎
ES这种搜索引擎架构
ClickHouse及IndexR这种列式数据库
OLAP引擎
Presto
Facebook开发的分布式大数据SQL查询引擎,专门进行快速数据分析
特点
可以将多个数据源的数据进行合并,可以跨越整个组织进行分析
直接从HDFS读取数据,在使用前不需要大量的ETL操作
查询原理
完全基于内存的并行计算
流水线
本地化计算
动态编译执行计划
小心使用内存和数据结构
类BlinkDB的近似查询
GC控制
Druid
Druid是一个用于实时查询和分析的分布式实时处理系统,主要用于广告分析,互联网广告监控、度量和网络监控
特点
快速的交互式查询——Druid的低延迟数据摄取架构允许事件在它们创建后毫秒内可被查询到。
高可用性——Druid的数据在系统更新时依然可用,规模的扩大和缩小都不会造成数据丢失;
可扩展——Druid已实现每天能够处理数十亿事件和TB级数据。
为分析而设计——Druid是为OLAP工作流的探索性分析而构建,它支持各种过滤、聚合和查询
应用场景
需要实时查询分析
具有大量数据时,如每天数亿事件的新增、每天数10T数据的增加;
需要一个高可用、高容错、高性能数据库时。
需要交互式聚合和快速探究大量数据时
Kylin
Kylin是提供与Hadoop之上的SQL查询接口及多维分析能力以支持超大规模数据