数据质量sla(数据质量检查)

“熵”是热力学第二定律的核心概念。熵实际上指的是“混乱程度”。简单来说,熵是衡量世界事物混乱程度的指标。在一个孤立的系统中,它的总混沌度(熵)不会减少,这意味着如果不进行控制,事情将倾向于继续无序地发展。

事实上,数据也是一个不断熵增的过程。随着时间的推移,会出现无效数据、错误数据、冗余数据、不标准数据、冲突数据等。如果我们不能正确控制和减少数据中的“熵”,我们最终会得到一些无序且低价值的数据。

数据质量sla(数据质量检查)

如何把“熵增”变成“熵减”,数据质量管理尤为重要。

定义:解释数据质量管理

数据质量管理是对数据生命周期从规划、获取、共享、维护、应用、消亡等各个阶段可能出现的各种数据质量问题进行识别、测量、监控和预警等一系列管理活动。并通过改进和提升组织的管理水平进一步提高数据质量。数据质量管理是一个循环的管理过程,其最终目标是通过可靠的数据提升数据的使用价值,最终为企业赢得经济效益。

因此,数据质量是保证数据应用的基础。评价数据是否满足预期的质量要求,需要专业、权威的评价标准来约束。迄今为止,最权威的标准是全国信息技术标准化技术委员会提出的数据质量评价指标(GB/T-2018ICS35.24.01),它包括以下几个方面:

管理框架:数据质量管理体系框架

数据质量非常重要。我们知道数据存在的问题,也知道数据质量必须满足六大评价标准,但是我们如何系统地构建和管理呢?数据质量管理一般以数据标准作为数据验证的基础,以元数据作为数据验证的对象,整合质量评估、质量检查、质量整改、质量报告等工作环节,形成完整的数据质量管理闭环。

数据质量管理架构图

方法论:数据质量管理的四个阶段

然而,我们需要遵循什么流程来有效控制数据质量,从而提高数据质量、释放数据价值呢?一般来说,数据质量控制过程分为四个阶段:启动、执行、检查和处理。在管控过程中,这四个阶段需要不断循环、螺旋式上升。

第一阶段:启动

现阶段,我们需要根据机构现有的组织架构和工作规范,建立一套质量控制流程和规范,例如成立质量控制委员会、制定质量控制措施等。质量控制委员会不必是专职的,可以由信息中心等现有机构的相关人员兼职担任。在数据质量控制方法上,应明确质量控制的角色和职责,建立可执行的工作流程和可量化的工作评估方法。还应提供绩效考核、冲突解决和管理控制方法。

流程和规范到位后,相应的负责人应明确本轮质量控制的目标。例如:数据质量改进的范围,或者满足一些业务期望。目标设定完成后,我们就可以进入下一个执行阶段。

第二阶段:执行

进入执行阶段,就要启动具体的质量控制工作,整个工作要围绕启动阶段设定的目标来开展。适当引入一些质量控制工具可以帮助我们更高效地完成工作。

第一步,数据分析

首先,应对已知数据问题进行评估。这里考核的范围也应该在本轮调控的目标范围之内。其次,通过分析数据,发现数据问题,通过标准或者业务研究可以提取出具体的规则。

1)根据标准提出标准规则

例如,我们可以根据标准提取如下图所示的编码规则并进行检查。

2)研究业务,提取业务规则

然后,我们可以从业务研究中提取规则,比如金融行业本年累计大中小微企业贷款金额的计算口径:本年大中小微企业累计贷款金额企业贷款=本年累计大型企业贷款金额+本年累计中型企业贷款发放金额+本年小微企业贷款累计发放金额+本年小微企业贷款累计发放金额年+当年个人经营性贷款累计发放金额,该指标计算规则受检验控制。

当然,业务规则也可以基于我们既定的业务期望。目标不同,业务分析的方向也应相应调整。

步骤2:设计数据质量控制操作流程

一旦知道已知的数据问题,就应该设计数据质量控制操作程序。主要包括以下三个方面:

1)建立检查和监测的频率和方法

2)制定质量问题评估方法和整改方法

3)制定质量报告内容和对象

步骤3:定义数据质量要求

根据分析的质量检验规则和控制操作流程,定义数据质量要求,可分为以下三个步骤。

1)梳理数据模型

数据模型梳理的主要任务是确定检查对象实体之间的关系,如关键字、主外键关系梳理、字段类型、长度等。

2)建立质量规则

这一步是将我们分析的数据验证业务规则转化为可执行且结果丰富的技术规则。

3)建立质量检验计划

收集可同时评价、责任部门划分一致的规则,建立质量检验计划。您还可以根据业务或评估规范细分规则并制定计划。

步骤4:确定数据质量级别

定义了数据质量要求后,我们需要根据这个要求来确定当前的数据质量水平在哪里。最直观、清晰地反映质量水平的就是错误数据的细节,如下图所示。

根据报告对象的不同,一般需要质量检验状况的统计报告。

第5步:管理数据质量问题

一旦发现问题,下一步就是解决问题。根据不同的质量问题,实施不同的质量改进计划。一般有四种方法:

1)源头修改,即对有问题的数据生产系统进行修改。

2)补充录入,即在数据中心建立新的仓库,对数据问题进行补充录入。通常,这是由于源系统升级或其他原因而无法从源系统修改的解决方法。3)技术修复,即通过ETL工具等技术手段清洗、转换问题数据。

4)遗留问题管控,即对一些无法修复和处理的数据进行特殊处理,一般进行异常标记或处理。

第三阶段:检查

检查阶段主要是检查执行阶段的结果并分析原因,包括以下三个方面。

1)确定整改质量

对处理后的数据再次进行质量检验,并出具数据质量报告。

2)整改效果比较

比较治疗前后的效果并总结改善措施。

3)检查数据质量是否合格并分析失败原因

在本轮控制中检查数据质量是否合格,找出不合格的原因,并在下一轮控制中进行技术或操作改进。

第四阶段:处理

1)监控数据质量,控制管理程序和绩效

按照既定的操作程序,对质量控制过程各环节的参与者进行绩效评价。还可以根据不同时期的重点制定不同的评分标准,进行有针对性的评价和控制。如果整改初期数据严重缺失,可以增加完整性规则的权重,以便更快看到结果或者取得更好的效果。影响。

2)建立质量控制意识和文化

沟通和推广是这一步的重点。所有参与者必须了解数据质量问题及其实质影响,宣传并实施系统的数据质量控制方法,同时发掘各环节参与者特别是业务方的价值,传达“数据质量问题不能解决”的意识。只能通过技术手段来解决”。最终形成数据质量管理文化。

数据质量控制在数据治理体系中占有非常重要的地位。它是最快看到实质性成果的环节,也是数据治理流程中的重要环节。易信华辰睿智智能数据治理平台是一个集成了数据治理的十大产品模块,涵盖整个数据生命周期的管理应用平台,其中还包含数据质量模块,可以帮助政府和企业有效提高数据质量,挖掘数据价值。

质量控制是一个长期、动态的过程,需要全公司不断探索和思考。在睿智的帮助下,相信这个过程会变得更加顺利和快捷。

零售银行数字化(零售银行数字化转型 现状 趋势与对策建议)
上一篇 2024-03-10 05:46:04
新式茶饮数字化(新式茶饮数字化新零售模式在中国市场的发展前景)
下一篇 2024-03-10 06:02:00

相关推荐