文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

浅谈数据质量管理

2024-11-30 06:50

关注

Part 01、  什么是数据质量管理 

数据质量管理,是DAMA数据管理知识体系指南中数据治理领域非常重要的一部分(图1 所示),主要是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

Part 02、 数据质量问题原因及评价标准 

数据在计划、获取、存储、共享、维护等各个环节都有可能引发数据质量问题,主要原因分为几下几个方面:

数据不完整:由于企业信息系统的孤立使用,各个业务系统或模块按照各自的需要录入系统,没有统一的录入工具和数据出口,业务系统不需要的信息就不录,造成同样的数据有不同的信息属性,再或者取数动作不规范,或许某个数据本身就是采集过来的,本来就是不完整的,数据完整性无法得到保障。

数据不合规:没有统一的数据管理平台和数据源头,数据生命周期管理不完整,同时企业各信息系统的数据录入环节过于简单且手工参与较多,就数据本身而言,缺少是否重复、合法、对错等校验环节,导致各个信息系统的数据不够准确,格式混乱,各类数据难以集成和统一,没有质量控制导致海量数据因质量过低而难以被利用。

数据时效性差:大数据项目对数据的时效性要求是非常严格的,比如离线项目是每天计算前一天的数据,如果前一天的源数据因为某些原因没有被及时的传输过来,这样就会严重影响后面指标的计算以及报表的生成。

数据冗余:各个信息系统针对数据的标准规范不一、编码规则不一、校验标准不一、且部分业务系统针对数据的验证标准缺失,造成了企业顶层视角的数据出现“一物多码,一码多物”等现象。

数据不精确:数据的精确性也是指数据的准确性,是指数据是否与目标值匹配;比如一个订购金额,如果远远大于或低于常规的数值,那么我们就要怀疑这个的数据的精确性不够。

那么如何判断数据质量的优劣?从哪些方面可以评估数据质量?在实践中,我们可以通过数据质量评估维度进行评估。数据质量评估维度是数据质量的特征之一,它们为度量和管理数据的质量提供了一种途径和标准。在一个具体的数据质量项目中,要选择最适用于业务需求的数据质量维度进行测量,以评价数据的质量。

在《GB/T36344-信息技术数据质量评价指标》中,国家标准化管理委员会明确了数据质量评价指标框架如图2所示。

图2

Part 03、目前常用的数据质量管理工具 

3.1 Apache Griffin

Griffin是一个开源的大数据质量解决方案, 2016年12月07日进入 Apache 孵化,由eBay开源,它支持批处理和流模式两种数据质量检测方式,是一个基于Hadoop和Spark建立的数据质量服务平台 (DQSP),如图3所示。它提供了一个全面的框架来处理不同的任务,例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化。

图3

Griffin由Define、Measure、Analyze三大模块组成,各个部分的职责如下:

Define:主要负责定义数据质量统计的维度,比如数据质量统计的时间跨度、统计的目标(源端和目标端的数据数量是否一致,数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等)。

Measure:主要负责执行统计任务,生成统计结果。这一块主要技术栈使用的是Livy+ Spark,Spark作为执行引擎,Apache Livy基于Spark的开源REST服务,它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。

Analyze:主要负责保存与展示统计结果。

-现状分析:

3.2 Apache DolphinScheduler

在2022年4月22日,Apache DolphinScheduler 正式宣布 3.0.0 alpha 版本发布,此版本中用户期待已久的数据质量校验应用功能上线,实现了数据质量的原生支持,支持在工作流运行前进行数据质量的校验,可由用户自定义数据质量的校验规则,实现了任务运行过程中对数据质量的严格控制和运行结果的监控,如图4所示。

图4

-现状分析

基于以上现状,DolphinScheduler是一款比较适合与业务相结合进行二次开发的数据质量工具,但是目前仅适用于离线数据验证。

3.3 Deequ

Deequ是一个来自AWS实验室的开源工具,可以用来验证许多大型生产数据集的质量。数据生产者可以通过添加和编辑数据质量约束,使得系统定期计算数据质量指标。当数据质量约束成功时将数据集发布给消费者,错误时可停止数据集的发布,并通知生产者采取行动,这样数据质量问题就不会传播到消费者的数据管道,从而减少它们的爆炸半径。主要组件如图5所示。

图5

-现状分析:

3.4 Great Expectations

Great expectations是一个python的工具包,Python近几年在数据分析领域大放异彩,而Python本身对于数据质量问题的解决一直是一个大问题。而Great expectations正好弥补了这方面的不足。对于一些对Python支持良好的公司,可以优先选择Great expectations来进行数据质量的解决方案建设。

-现状分析:

来源:移动Labs内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯