谈数据:数据质量管理的10个最佳实践
作者丨石秀峰
来源丨谈数据
全文共3768个字,建议阅读需15分钟
数据质量管理是所有数据类项目重点关注的领域,从20多年前的数据仓库到如今的数据湖、数据中台,企业都试图将通过对改善数据质量来提升数据的价值。
关于如何做好数据质量的管理,我们给出以下10条最佳实践,希望对您有所启发。
笔者经常说:企业的数据治理不是为治理数据而治理数据,背后都是为了支持业务和管理目标的实现。提升数据质量的主要目的是推动业务发展:
第一,将企业的业务目标映射到数据质量管理计划中来。
第二,让业务人员深度参与甚至主导数据质量管理,作为该数据主要用户的业务部门可以更好地定义数据质量参数。
第三,将业务问题定义清楚,只有在业务问题定义清楚之后,才能分析出数据数量问题的根本原因,以及制定出更合理的解决方案。
数据质量评估,是一种了解数据问题如何影响业务流程方式。从相关数据源提取数据,围绕已定义的业务需求,设计数据评估维度并利用相关工具完成评估,将数据质量评估结果以图表或报告形式准确的表达出来,使相关领导和业务人员能够直观、清晰地了解企业的数据质量情况,确保数据问题是与业务需求相关的,并能够得到相关领导或业务人员的重视与支持。
第一,数据质量评估以数据质量问题对业务的影响分析为指导,清楚的定义出待评估数据的范围和优先级等重要参数。
第二,采用自上而下和自下而上相结合的策略识别数据中的异常问题。自上而下是以业务目标为出发点,对待评估的数据集进行评估和衡量。自下而上的方法是基于基于数据概要分析,识别数据问题并将其映射到对业务目标的潜在影响。
第三,形成数据治理评估报告,通过该报告清楚列出数据质量的评估结果,该报告可以在利益相关者,决策者之间分发,从而推动数据质量改进行动。
产生数据质量问题的原因有很多,但是有些问题的发生仅是表象,并不一定是导致错误数据的根本原因。
要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。
对于数据质量问题采用量化管理机制,分等级和优先级进行管理,严重的数据质量问题或数据质量事件可以升级为故障,并对故障进行定义、等级划分、预置处理方案和Review。
量化的数据质量使得我们可以通过统计过程控制对数据质量进行监测。一旦发现异常值或者数据质量的突然恶化,便根据数据产生的逻辑顺藤摸瓜找到产生数据的业务环节。所以在根因分析的过程中,要不断的去追踪数据进行问题定位,确定问题最早出现的根本原因进而使问题得到有效解决,达到治标又治本的效果。
事实上,没有一种“一刀切”的方法来保证企业每种业务的每种数据的准确性和完整性。
企业数据质量的治理需要结合数据问题对业务的影响程度以及数据问题发生的根本原因制定数据质量管理的解决方案。
因此,企业的数据质量管理是一个持续的过程,永远也不会出现所谓的“最佳时机”,换句话说,企业数据质量管理的最佳时机就是“JUST DO IT!”
数据质量控制是在企业的数据环境中设置一道数据质量的“防火墙”,以预防不良数据的发生。
数据质量“防火墙”就是根据数据问题的根因分析和问题处理策略,在发生数据问题的入口点设置的数据问题测量和监控程序,在数据环境的源头或者上游进行数据问题的防治,从而避免不良数据向下游传播并污染后续的存储,进而影响业务。
数据质量的测量和控制需要将数据质量目标集成到系统开发的生命周期中,将数据质量控制纳入业务流程,彻底遍历每个应用程序中的数据流并深入了解数据检查和控制程序的可能插入点。
这些要求必须添加到系统的功能要求中,以便无缝地集成到开发周期中,从而在数据进入系统时进行验证,避免不良数据的发生。
数据质量管理方案要与企业的特定的业务目标紧密匹配,使各方对数据质量管理目标和纠正方案达成共识,这对数据质量目标的最终达成至关重要。
企业需要建立一种文化,以让更多的人认识到数据质量的重要性,这离不开组织体系的保障。建立数据质量管理的组织体系并为具有适当技能的人员分配角色以确保数据质量。在整个企业中实施数据质量管理时,应考虑以下角色:
数据治理委员会:为数据质量定下基调,制定有关数据基础架构和流程的决策。数据治理委员会确保在整个企业范围内采用与数据质量相关的类似方法和政策,并在组织的所有职能部门之间进行横向调整。数据治理委员会定期开会以定义新的数据质量目标,推动测量并分析各个业务部门内数据质量的状态。
数据分析师:数据分析师负责数据问题的根因分析,以便为数据质量解决方案的制定提供决策依据。
通过评价相关数据质量KPI水平,督促各方在日常工作中重视数据质量,在发现问题时能够追根溯源地主动解决,对于高水平的数据质量工作成果进行激励、表彰,提升企业的数据质量管理意识。
更好的了解和量化数据质量
更好的进行数据质量问题分析
更好的数据匹配和删除重复数据
更好的丰富企业的数据
数据管理系统中的机器学习功能不断提高数据质量,以确保所有运营团队和面向客户的团队始终使用准确一致的数据。
数据使用。利用元数据监控数据使用;利用数据标准保证数据正确;利用数据质量检查加工正确。元数据提供各系统统一的数据模型进行使用,监控数据的来源去向,提供全息的数据地图支持;企业从技术、管理、业务三个方面进行规范,严格执行数据标准,保证数据的规范化输入,标准化。