谈数据:数据质量管理的10个最佳实践

作者丨石秀峰

来源丨谈数据

全文共3768个字,建议阅读需15分钟

数据质量管理是所有数据类项目重点关注的领域,从20多年前的数据仓库到如今的数据湖、数据中台,企业都试图将通过对改善数据质量来提升数据的价值。

然而遗憾的是,我们看到很多企业的数据项目都是建了拆、拆了建,数据仓库还没有搞明白,就开始搞数据中台了。
当然,我并不是排斥通过新的技术、新的理念。
相反,我是非常乐意看到企业用尝试用新的技术和理念去创新,以提升管理和业务上的效率。
但是,追求新技术、新概念的过程中不能盲目,更不能过度迷信平台和工具。
数据项目还是应该回归到其本质上来,那就是提高数据质量,提升数据价值。
数据质量管理需要的是工匠精神,需要不断地对您拥有的数据进行反复“打磨”,循环迭代,将数据治理“常态化”,而不是指望实施一个项目就能实现数据质量的百分百提升。

关于如何做好数据质量的管理,我们给出以下10条最佳实践,希望对您有所启发。

01
对其业务目标!

笔者经常说:企业的数据治理不是为治理数据而治理数据,背后都是为了支持业务和管理目标的实现。提升数据质量的主要目的是推动业务发展:

第一,将企业的业务目标映射到数据质量管理计划中来。

第二,让业务人员深度参与甚至主导数据质量管理,作为该数据主要用户的业务部门可以更好地定义数据质量参数。

第三,将业务问题定义清楚,只有在业务问题定义清楚之后,才能分析出数据数量问题的根本原因,以及制定出更合理的解决方案。

02
评估数据质量

数据质量评估,是一种了解数据问题如何影响业务流程方式。从相关数据源提取数据,围绕已定义的业务需求,设计数据评估维度并利用相关工具完成评估,将数据质量评估结果以图表或报告形式准确的表达出来,使相关领导和业务人员能够直观、清晰地了解企业的数据质量情况,确保数据问题是与业务需求相关的,并能够得到相关领导或业务人员的重视与支持。

第一,数据质量评估以数据质量问题对业务的影响分析为指导,清楚的定义出待评估数据的范围和优先级等重要参数。

第二,采用自上而下和自下而上相结合的策略识别数据中的异常问题。自上而下是以业务目标为出发点,对待评估的数据集进行评估和衡量。自下而上的方法是基于基于数据概要分析,识别数据问题并将其映射到对业务目标的潜在影响。

第三,形成数据治理评估报告,通过该报告清楚列出数据质量的评估结果,该报告可以在利益相关者,决策者之间分发,从而推动数据质量改进行动。

从本质上讲,数据质量评估意味着对企业的数据环境进行全面普查,以便能够确定其环境中的数据质量问题,并识别数据质量问题对业务目标的影响程度。它为数据质量改进计划和衡量后续改进的结果,提供了一个重要的参考。
03
分析根本原因

产生数据质量问题的原因有很多,但是有些问题的发生仅是表象,并不一定是导致错误数据的根本原因。

要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。

对于数据质量问题采用量化管理机制,分等级和优先级进行管理,严重的数据质量问题或数据质量事件可以升级为故障,并对故障进行定义、等级划分、预置处理方案和Review。

量化的数据质量使得我们可以通过统计过程控制对数据质量进行监测。一旦发现异常值或者数据质量的突然恶化,便根据数据产生的逻辑顺藤摸瓜找到产生数据的业务环节。所以在根因分析的过程中,要不断的去追踪数据进行问题定位,确定问题最早出现的根本原因进而使问题得到有效解决,达到治标又治本的效果

我们在数据问题根因分析章节中已经详细描述了数据质量问题的根因分析步骤和方法,这里就不再加以重复描述了。
04
制定解决方案

事实上,没有一种“一刀切”的方法来保证企业每种业务的每种数据的准确性和完整性。

企业数据质量的治理需要结合数据问题对业务的影响程度以及数据问题发生的根本原因制定数据质量管理的解决方案。

明确数据质量的改进目标,制定数据质量问题处理策略,并立即付诸行动。
随着大数据的发展,企业用数需求与日俱增,直接解决数据质量问题变得比以往任何时候都更加重要。
技术的发展、业务的变化、数据的增加也让企业的数据环境变更日益复杂和多变。

因此,企业的数据质量管理是一个持续的过程,永远也不会出现所谓的“最佳时机”,换句话说,企业数据质量管理的最佳时机就是“JUST DO IT!”

05
控制数据质量

数据质量控制是在企业的数据环境中设置一道数据质量的“防火墙”,以预防不良数据的发生。

数据质量“防火墙”就是根据数据问题的根因分析和问题处理策略,在发生数据问题的入口点设置的数据问题测量和监控程序,在数据环境的源头或者上游进行数据问题的防治,从而避免不良数据向下游传播并污染后续的存储,进而影响业务。

数据质量的测量和控制需要将数据质量目标集成到系统开发的生命周期中,将数据质量控制纳入业务流程,彻底遍历每个应用程序中的数据流并深入了解数据检查和控制程序的可能插入点。

这些要求必须添加到系统的功能要求中,以便无缝地集成到开发周期中,从而在数据进入系统时进行验证,避免不良数据的发生。

数据质量“防火墙”能够自动检测到的数据问题并将其发送到原始数据源以进行纠正,或者在将其传递到企业环境之前进行纠正和调整,极大地减少了数据质量问题对后续业务的影响。
06
纠正数据问题
尽管有效数据质量控制可以在很大程度上起到控制和预防不良数据发生的作用,但事实上,再严格的质量控制也无法做到100%数据问题防治,甚至有时候严格的数据质量控制还会引出其他更多的数据问题。
因此,企业还需要不时进行主动的数据清理和处理补救,以纠正现有的数据问题。
纠正数据问题涉及数据的生产方、消费方,这一步骤需要企业数据环境中的前中后台共同开展数据纠错。

数据质量管理方案要与企业的特定的业务目标紧密匹配,使各方对数据质量管理目标和纠正方案达成共识,这对数据质量目标的最终达成至关重要。

07
组织体系保障

企业需要建立一种文化,以让更多的人认识到数据质量的重要性,这离不开组织体系的保障。建立数据质量管理的组织体系并为具有适当技能的人员分配角色以确保数据质量。在整个企业中实施数据质量管理时,应考虑以下角色:

数据治理委员会:为数据质量定下基调,制定有关数据基础架构和流程的决策。数据治理委员会确保在整个企业范围内采用与数据质量相关的类似方法和政策,并在组织的所有职能部门之间进行横向调整。数据治理委员会定期开会以定义新的数据质量目标,推动测量并分析各个业务部门内数据质量的状态。

数据分析师:数据分析师负责数据问题的根因分析,以便为数据质量解决方案的制定提供决策依据。

数据管理员:数据管理员负责将数据作为公司资产进行管理,操作数据质量,例如,定期数据清理,删除重复数据或解决其他一些数据问题。
08
质量考核体系
数据质量考核建立数据质量KPI,通过专项考核计分的方式对各企业各业务域、各部门的数据质量管理情况进行评估。
以数据质量的评估结果为依据,并将问题数据归结到相应的分类,并按所在分类的权值进行量化。总结发生数据质量问题的规律,利用数据质量管理工具定期对数据质量进行监控和测量,及时发现存在的数据质量问题,并督促落实改正。
考核实行奖惩结合制,每次根据各业务域、各部门数据质量KPI的检核情况,分别给予相应的奖罚分值,作为各业务域、各部门年终考核的内容,并将数据质量专项考核结果纳入对于人员、部门的整体绩效考核体系中。

通过评价相关数据质量KPI水平,督促各方在日常工作中重视数据质量,在发现问题时能够追根溯源地主动解决,对于高水平的数据质量工作成果进行激励、表彰,提升企业的数据质量管理意识。

09
先进技术赋能
数据质量管理的速度必须与数据生成的速度相匹配才能保证干净、完整、可靠、一致的数据。传统的数据质量方法很难实现这一结果,但先进的现代技术为数据质量管理提供了更好的解决方案。
我们可以利用机器学习技术来进行数据质量的监控,评分和改善数据质量,以应对不断增加的数据速度和日趋复杂的数据环境等挑战。
机器学习在数据质量管理中的应用包括:
  • 更好的了解和量化数据质量

  • 更好的进行数据质量问题分析

  • 更好的数据匹配和删除重复数据

  • 更好的丰富企业的数据

数据管理系统中的机器学习功能不断提高数据质量,以确保所有运营团队和面向客户的团队始终使用准确一致的数据。

10
在数据生命周期中关注数据质量
数据的生命周期从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个阶段并不断循环的过程。企业的数据质量管理应贯穿数据生命周期的全过程。
数据规划。从企业战略的角度不断完善企业数据模型的规划,把数据质量管理融入到企业战略中,建立数据治理体系,并融入企业文化中。
数据设计。推动数据标准化制定和贯彻执行,根据数据标准化要求统一建模管理,统一数据分类、数据编码、数据存储结构,为数据的集成、交换、共享、应用奠定基础。
数据创建。利用数据模型保证数据结构完整、一致,执行数据标准、规范数据维护过程,加入数据质量检查,从源头系统保证数据的正确性、完整性、唯一性。

数据使用。利用元数据监控数据使用;利用数据标准保证数据正确;利用数据质量检查加工正确。元数据提供各系统统一的数据模型进行使用,监控数据的来源去向,提供全息的数据地图支持;企业从技术、管理、业务三个方面进行规范,严格执行数据标准,保证数据的规范化输入,标准化。

(0)

相关推荐

  • 数据治理的成功要素3:治理的时机和切入点

    题外话:最近一段时间工作繁忙,加上晚上回去还要写文章,长时间的伏案工作,给我脆弱的颈椎简直是雪上加霜.2012年体检,就查出了"颈椎生理曲度变直",医生叮嘱:要多加锻炼,尽早治疗. ...

  • 企业数字化转型从数据要素到数据治理(第一部分讲解视频)

    以上为本专题全部课件,本次分享第1-7页的讲解视频 近些年来,随着大数据在各个行业领域应用的不断深入,数据作为基础性战略资源的地位日益凸显,数据标准化.数据确权.数据质量.数据安全.隐私保护.数据流通 ...

  • 干货 | 数据治理体系建设方案(PPT)

    来源:公众号数邦客 背景   数据治理其实是一种体系,是一个关注于信息系统执行层面的体系,这一体系的目的是整合IT与业务部的知识和意见,通过将流程.策略.标准和组织的有效组合,对企业的信息化建设进行全 ...

  • 大数据治理基础

    "信息"很大一部分都是由"数据"组成的.所以数据资产管理成为了企业或者组织采取的管理活动,用于保证数据资产的安全和完整,有效地利用起来就可以带来经济效益.数据资 ...

  • 老板要做数字化转型,干了3个月的脏活累活,我被开除了

    "数据治理"这个10多年前就已经出现的名称,在最近这几年时间一下子火了起来.不知何时,江湖中流传出了:"数字化转型.治理先行"的说法. 于是乎,我们看到:不仅是 ...

  • 终于有人把数据治理讲明白了

    导读:数据治理:说起来容易,做起来难. 作者:石秀峰 来源:谈数据(ID:learning-bigdata) "数据治理"这个10多年前就已经出现的名称,在最近这几年时间一下子火了 ...

  • 干货:某保险企业数据备份系统的规划设计 | 最佳实践

    [导读]本文从保险企业数据备份系统建设的实际需求出发,充分利用重复数据删除等数据备份技术,来优化传统备份架构,从而完成备份系统建设方案的规划设计,对同行有一定的借鉴和参考价值.[作者]陈萍春,现就职于 ...

  • 远程软件工程师的10个最佳实践

    从表面上看,当考虑软件工程师研发效率的时候,我们可能会想到时间管理.沟通和任务完成的有效性.问题是完成任务或者有一个预期的时间表并不一定等同于生产力.对于远程工作的软件工程师而言,正面临着常规思考.责 ...

  • IoT产品的10个最佳实践

    如果经历过,有时候就会被人回忆起来.上周末,经过和友人的友人深入地讨论,自己梳理了实现IoT产品的10条经验,并自以为是地称之为"最佳实践". 制造业花了数年甚至数十年时间来磨练他 ...

  • 海洋论坛▏浅谈大数据背景下海洋地理信息系统的发展

    2015年10月国务院正式印发的<促进大数据发展行动纲要>,是我国促进大数据发展的第一份权威性.系统性文件,从国家大数据发展战略全局的高度,提出了我国大数据发展的顶层设计和总体部署,是指导 ...

  • 比数据透视表强10倍!这个数据分析利器就在你的Excel菜单栏里,你却不知道……

    每天一点小技能 职场打怪不得怂 编按:一说到数据分析,很多人第一时间想到的就是数据透视表.而今天,小E给大家讲的不是数据透视表,而是一个比数据透视表强大的多的,被称为数据建模.微软20年来最伟大发明的 ...

  • 浅谈大数据在内部审计中的应用

    世界正在走向信息化,我们正在进入大数据时代,而在内部审计中,大数据又将发挥怎样的作用呢? 一.内部审计信息化的发展 根据国际内部审计师协会的定义,内部审计是一种独立.客观的确认和咨询活动,旨在增加价值 ...

  • 程博士谈大数据 | 大数据如何助力跨境电商

    2020 年新冠疫情席卷全球,消费者大规模转向线上消费,刺激了全球电商零售行业的快速发展.从电商零售额看,2019 至 2020 年间,欧美及亚太地区主要国家的电商整体零售额经历了 15% 以上的高速 ...

  • 测开架构师谈大数据——大数据层级的测试重点

    时间 主题 6.25(周二)14:00 测试基础课程 6.25(周二)20:00 测试开发试听课程 6.26(周三)20:00 测试运维试听课程 6.27(周四)14:00 测试开发试听课程 1 大数 ...

  • 零部件数据造假20年 10余家车企中招 日本“工匠造车”失信?

    汽车安全不仅是消费者和社会关注的大问题,更是关乎车企生死存亡的企业命脉,其中日本一直被冠以"工匠造车"的国家,但随着"高田气囊事件"丑闻的曝光,日本汽车制造业也 ...