拒绝“脏”数据,企业如何搭建数据质量评估体系

为什么要进行数据质量评估

很多刚入门的数据分析师,拿到数据后会立刻开始对数据进行各种探查、统计分析等,企图能立即发现数据背后隐藏的信息和知识。然而忙活了一阵才颓然发现,并不能提炼出太多有价值的信息,白白浪费了大量的时间和精力。比如和数据打交道的过程中,可能会出现以下的场景:

场景一:作为分析师,要统计一下近7天用户的购买情况,结果从数仓中统计完发现,很多数据发生了重复记录,甚至有些数据统计单位不统一。
场景二:业务看报表,发现某一天的成交gmv暴跌,经过排查发现,是当天的数据缺失。
造成这一情况的一个重要因素就是忽视了对数据质量的客观评估。在进行数据分析前需要注意以下两点:
1、在实际工作中数据分析一定都是为具体业务服务的,只有紧密围绕业务需求的分析才是有意义的有价值的。
2、通常我们进行数据分析、挖掘的目的是企图发现数据中隐藏的知识和信息,从而对实际业务或产品进行优化。如果数据集本身质量不佳,自然很难得出有用的结论,甚至可能得到错误的结果延伸到导致决策失误。
所以,进行科学、客观的数据质量评估是非常必要且十分重要的。首先可以节约大量试错的时间;其次可以降低得出错误结论的概率;还可以缩短数据反馈流程,更加及时的将数据收集过程存在的问题反馈给数据生产部门,提高协作效率。
数据质量六大评价标准

数据质量是保证数据分析应用的基础,是获取数据价值的重要保障。根据目前业界对于数据质量的衡量标准,并结合多年项目经验总结,可基于数据完整性、唯一性、有效性、一致性、准确性和及时性6个维度来评估数据质量。依据以上指标,针对不同的信息系统做出定量的数据质量评估,也可根据实际情况,在评估执行中进行取舍。

(1)数据完整性
完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。
(2)数据唯一性
唯一性指的是数据库的数据不存在重复的情形。比如真实成交1万条,但数据表有3000重复了,成了1.3万条成交记录,这种数据不符合数据唯一性。
(3)数据有效性
有效性指的是描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据的类型、格式、取值范围等。
(4)数据一致性
一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑,一致性并不意味着数值上的绝对相同,而是数据收集、处理的方法和标准的一致。常见的一致性指标有:ID重合度、属性一致、取值一致、采集方法一致、转化步骤一致。
(5)数据准确性
准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致,更为常见的数据准确性错误就如乱码,其次异常的大或者小的数据也是不符合条件的数据。常见的准确性指标有:缺失值占比、错误值占比、异常值占比、抽样偏差、数据噪声。
(6)数据及时性
及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。比如一份数据是统计离线今日的,结果都是第二天甚至第三天才能统计完,这种数据不符合数据及时性。
企业如何进行数据质量评估

一般来说,当企业有了全新的业务需求、重大的技术变更,又或者从一个新的数据来源获取了全新的数据,并期望将它应用在一个具体的业务中的时候,我们都需要进行比较完整的数据质量分析。数据质量评估步骤如下:

1、需求分析,明确目标
对具体业务数据的数据质量评价是以业务需求为中心进行的,必须首先了解具体业务针对特定数据资源的需求特征才能建立针对性的评价指标体系。同时,同一份数据在不同的生命周期中,其质量的关注点是存在差异的,因此很重要的一点就是明确当前阶段数据质量管理的目标是什么。有了明确的目标,才能开始对数据进行合理的评估。
2、确定评价对象及范围
确定当前评估工作应用的数据集的范围和边界,明确数据集在属性、数量、时间等维度的具体界限。需要说明的是,评价对象既可以是数据项也可以是数据集,但一定是一个确定的静态的集合。
3、选取质量维度及评价指标
数据质量维度是进行质量评价的具体质量反映,如正确性、准确性等,它是控制和评价数据质量的主要内容。因此,首先要依据具体业务需求选择适当的数据质量维度和评价指标。另外,要选取可测、可用的质量维度作为评价指标准则项,在不同的数据类型和不同的数据生产阶段,同一质量维度有不同的具体含义和内容,应该根据实际需要和生命阶段确定质量维度。
4、确定质量测度及其评价方法
数据质量评价在确定其具体维度和指标对象后,应该根据每个评价对象的特点,确定其测度及实现方法。对于不同的评价对象一般是存在不同的测度的,以及需要不同的实现方法支持,所以应该根据质量对象的特点确定其测度和实现方法。
5、实施质量评估
根据前面四步确定的质量对象、质量范围、测量及其实现方法实现质量评测的活动过程。评价对象的质量应当由多个质量维度的评测来反映,单个数据质量测量是不能充分、客观评价由某一数据质量范围所限定的信息的质量状况,也不能为数据集的所有可能的应用提供全面的参考,多个质量维度的组合能提供更加丰富的信息。
6、撰写结果分析并报告
经过抽样、度量、评估之后,就可以得到评估结论了。最后我们需要的就是撰写一份评估的报告,在这份报告当中,除了最后的结论,应当还包括对这个结论的分析和解读,并通过一些可视化的方式展现在报告当中。数据质量评估报告不是最终的目的,这份报告对后续数据质量的管理,数据治理等都具有非常重要的参考意义。因此,在这份报告中应当包含结论、分析以及质量改善建议这几个方面。
提高数据质量的方法

要想真正解决数据质量问题,明确业务需求并从需求开始控制数据质量,并建立数据质量管理机制。从业务出发做问题定义,由工具自动、及时发现问题,明确问题责任人,通过邮件、短信等方式进行通知,保证问题及时通知到责任人。跟踪问题整改进度,保证数据质量问题全过程的管理

正所谓,工欲善其事,必先利其器。亿信华辰睿治数据治理平台的数据质量管理模块以全面质量管理PDCA循环管理方法为指导,充分结合国内数据质量管理工作的特点,运用元数据管理、数据挖掘、数据分析、工作流、评分卡、可视化等技术最终帮助企业和政府建立数据质量管理体系,全面提升数据的完整性、规范性、及时性、一致性、逻辑性等,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。
1、构建数据质量规则库

定义数据验证方法,内嵌空值检查、值域检查等13种检查规则,基本覆盖目前数据质量相关问题。
2、发现数据质量问题
灵活定义多模型质检方案,多点监测、多模型质检方案,高效调度,并发和串行处理相结合,性能高效,只需2分30秒,便可完成20条规则百万级数据的质量检查。
3、出具全面的“体检报告”

内置常规质检分析报告,实时可视化呈现质检结果,质检结果模型灵活扩展,充分利用了BI工具的分析展现能力,提供图文并茂的质量检查结果报告。
4、数据质量全流程管理
提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能,不仅能发现问题、还能将问题分发给数据负责人、管理者,在线跟踪问题处理进展。
结语:数据质量的治理,是数据治理的主要内容之一。数据质量的全面评价,是数据质量治理的准绳。在整个数据治理环节,亿信华辰睿治数据治理平台从数据源头控制数据质量,贯彻始终,全面提升数据的完整性、规范性、及时性、一致性,减少因数据不可靠导致的决策偏差和损失。

—— / END / ——

(0)

相关推荐