维度模型数据仓库基础对象概念一览
一、度量、指标、指标器
度量和维度构成OLAP的主要概念,对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段,就是度量。这符合上面的意思,有标准。一个度量字段肯定是统一单位,比如元、户数。假设一个度量字段。当中的度量值可能是欧元又有可能是美元,那这个度量没法汇总。
在OLAP中还有计算度量的说法,用一个总费用除以用户数。得到每户平均费用。但这到底还算不算度量了呢?这已经不是原本意义上的度量了,仅仅是为了称呼方便而已。
这就得说到指标,英文的Metric。
在绩效管理软件里面,一般是有这个概念的。其定义可表述为"它是表示某种相对程度的值"。差别于度量概念,那是一种绝对值,尺子量出来的结果。汇总出来的数量等。
而指标至少须要两个度量之间的计算才干得到,比如ARPU,用收入比上用户数,比如收入增长率,用本月收入比上上月收入。当然可能指标的计算还须要两个以上的度量。
而Indicator的字面意思为指示器,在KPI中,最后一个I就是它,可是用中文称呼它的时候,总是叫"关键绩效指标",而没有叫做"指标器",也就造成一些混乱。
我们身边充当指示器的有:红绿灯。提醒行人车辆是否等待或通行;监控室里的警报灯。提醒哪儿出现异常。汽车仪表盘。提醒驾驶员油是否足够,速度怎样。它们起到的作用是传递一种宏观的信息。促使人的下一步行动。红灯停绿灯行。看到警报亮起要赶紧派人查看。
眼下常见的企业绩效管理软件中,仪表盘(有的地方称作驾驶舱)的展示界面也是不可缺少。正是用这样的直观而比較有象征性的指示器反映企业运营状况。
能够设想提出KPI的初衷。是希望企业通过一些粗略(非细节)的信息(而非数据)来为下一步的决策作出根据。
导致不同的决策行为必然是离散的输入。最简单的就是一个开关。是或不是(比如警报灯)。假设说度量和指标是定量话,指示器就是一种定性的。
然而。这些系统中的KPI并不是全然上面提到的指示器,非常多系统建设称为度量系统或是指标系统。而对一个企业,哪些指标可以充分反映经营活动,这也是须要精心制定的。而不是让技术部门提出一堆似是而非的指标名称,诸如在网用户数、收入之类,这不是KPI。
三者差别的说明:
"度量"是绝对的定量值。
"指标"是基于两个或很多其它度量计算得出的相对值;
"指示器"是基于度量或指标,并根据某个基准值得到的定性结果。
二、维度中层与级的差别
在OLAP中定义维度时,层(Hierarchy)与级(Level)是比較让人迷惑的两个概念。简单的说,层就是一种维度成员的分类方式,级就是维度成员之间或维度成员属性之间的包括关系。
一个维度至少要包括一个层。
以[产品]维度为例,能够创建一个[产地]层,能够创建一个[厂商]层,也能够创建一个[分类]层。在SSAS中。能够不定义层,此时维度的默认层为AllMembers层。
在Mondrian的Schema定义工具中。则要求所有手工定义。
一个层至少要包括一个级,以[产品]维度为例,[产地]层能够包括省-市-县三个级别,[分类]层能够包括日用品-洗涤用品-洗衣粉三个级别。级别的定义有2种方式,一种是在一个维度成员的属性之间定义,比如[产品]维度的每一个成员都有产品系列、大类、小类三个属性,这样定义[分类]层的级别时。直接利用这三个属性就可以,即:每一个级别都是一个成员的一个属性。还有一种是在维度成员之间进行。比如HR中的上下级关系。每一个级别都是一个详细的维度成员,即:每一个级别都是一个或多个维度成员,每一个级都包括多个属性。
后一种级别在数据库中往往是以递归的方式进行保存的。
三、数据仓库相关术语
数据仓库:数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的而且是时变的。
数据仓库是全部操作环境和外部数据源的快照集合。
它并不须要很精确,由于它必须在特定的时间基础上从操作环境中提取出来。
数据集市:数据仓库仅仅限于单个主题的区域,比如顾客、部门、地点等。数据集市在从数据仓库获取数据时能够依赖于数据仓库,或者当它们从操作系统中获取数据时就不依赖于数据仓库。
事实:事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。
事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。每一个事实包含关于事实(销售额,销售量,成本。毛利。毛利率等)的基本信息,而且与维度相关。在某些情况下,当全部的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。
维度:维度是用来反映业务的一类属性,这类属性的集合构成一个维度。比如,某个地理维度可能包含国家、地区、省以及城市的级别。一个时间维度可能包含年、季、月、周、日的级别。
级别:维度层次结构的一个元素。
级别描写叙述了数据的层次结构,从数据的最高(汇总程度最大)级别直到最低(最具体)级别(如大分类-中分类-小分类-细分类)。级别仅存在于维度内。
级别基于维度表中的列或维度中的成员属性。
数据清洗:对数据仓库系统没用的或者不符合数据格式规范的数据称之为脏数据。清洗的过程就是清除脏数据的过程。
数据採集:数据仓库系统中后端处理的一部分。数据採集过程是指从业务系统中收集与数据仓库各指标有关的数据。
数据转换:解释业务数据并改动其内容。使之符合数据仓库数据格式规范,并放入数据仓库的数据存储介质中。
数据转换包含数据存储格式的转换以及数据表示符的转换(如产品代码到产品名称的转换)。
联机分析处理(OLAP Online Analytical Processing ):OLAP是一种多维分析技术,用来满足决策用户在大量的业务数据中,从多角度探索业务活动的规律性、市场的运作趋势的分析需求。并辅助他们进行战略发展决策的制定。
依照数据的存储方式分OLAP又分为ROLAP、MOLAP和HOLAP。
在客户信息数据仓库CCDW的数据环境下,OLAP提供上钻、下钻、切片、旋转等在线分析机制。完毕的功能包含多角度实时查询、简单的数据分析。并辅之于各种图形展示分析结果。
数据挖掘:在数据仓库的数据中发现新信息的过程被称为数据挖掘,这些新信息不会从操作系统中获得。
切片:一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。
切块:一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。
星型模式:是数据仓库应用程序的最佳设计模式。它的命名是因其在物理上表现为中心实体,典型内容包括指标数据、辐射数据,一般是有助于浏览和聚集指标数据的维度。星形图模型得到的结果经常是查询式数据结构,可以为高速响应用户的查询要求提供最优的数据结构。星形图还经常产生一种包括维度数据和指标数据的两层模型。
雪花模式:指一种扩展的星形图。星形图通常生成一个两层结构。即仅仅有维度和指标,雪花图生成了附加层。实际数据仓库系统建设过程中,通常仅仅扩展三层:维度(维度实体)、指标(指标实体)和相关的描写叙述数据(类目细节实体);超过三层的雪花图模型在数据仓库系统中应该避免。由于它们開始像更倾向于支持OLTP 应用程序的规格化结构,而不是为数据仓库和OLAP应用程序而优化的非格式化结构。
粒度:粒度将直接决定所构建仓库系统可以提供决策支持的细节级别。粒度越高表示仓库中的数据较粗。反之。较细。
粒度是与详细指标相关的,详细表如今描写叙述此指标的某些可分层次维的维值上。
比如,时间维度,时间可以分成年、季、月、周、日等。
数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响。
事实表中以各种维度的什么层次作为最细粒度,将决定存储的数据是否能满足信息分析的功能需求。而粒度的层次划分、以及聚合表中粒度的选择将直接影响查询的响应时间。
度量值:在多维数据集中,度量值是一组值。这些值基于多维数据集的事实数据表中的一列,并且通常为数字。此外。度量值是所分析的多维数据集的中心值。
即。度量值是终于用户浏览多维数据集时重点查看的数字数据(如销售、毛利、成本)。