第1章 基础知识
质量管理的定义
PDCA: Plan(计划)、Do(执行)、Check(检查)和Act(处理)。
PDCA循环又叫戴明环,是美国质量管理专家戴明博士提出的,它是全面质量管理所应遵循的科学程序。全面质量管理活动的全部过程,就是质量计划的制订和组织实现的过程,这个过程就是按照PDCA循环,不停顿地周而复始地运转的。
参考PDCA管理方法,实现信息集成平台的全面数据质量管理实现,形成如下图如示的数据质量管理框架构:
质量管理的目的
质量管理的目的是提高数据的质量。
质量规则类型
强制类型
数据元编码
数据元长度
数据元类型
数据值格式
宽松类型
非空:不能为空的定义。定义时只需要选择质量类型属性为非空就完成定义;
值域范围:如果数据元定义指定了值域,则配置成数据对应的值域编码;或者配置成值域代码中维护的其它值域编码;
取值范围:如果数据元是数字型且取值是有一个范围内的话,可以定义相应的取值范围,定义方法参考这个例子:数据元>= and( or ) 数据元<=;
数据项逻辑:通过SQL语句配置数据集上的逻辑关系。
第2章 功能操作
质量扣分规则
质量扣分是根据表“公共代码值域表(p_b_codevalue)”进行扣分。
具体扣分值是根据列“specialtype”。
具体扣分值则是根据所制定的质量规则进行扣分。
系统代码表中的编码是:2016。
质量规则定义
自动生成质量规则
系统以数据集为单元进行质量标准定义,系统提供自动化生成质量标准,单击“质量标准定义”中“自动质量规则”生成功能,能自动生成一些数据质量规则。如下图:
自定义质量规则
如果自动生成质量规则不能满足需求的话,我们也可以对质量规则进行自定义。单击‘质量标准定义’而后选中具体需要生成规则的数据集,新增或者选择需要修改的规则进行修改、删除。如下图:
系统提供了以下几种质量规则定义方式:
非空:不能为空的定义。定义时只需要选择质量类型属性为非空就完成定义;
值域范围:如果数据元定义指定了值域,则配置成数据对应的值域编码;或者配置成值域代码中维护的其它值域编码;
取值范围:如果数据元是数字型且取值是有一个范围内的话,可以定义相应的取值范围,定义方法参考这个例子:数据元>= and( or ) 数据元<=
数据项逻辑:通过SQL语句配置数据集上的逻辑关系。
质量分析服务
制定好质量规则后,需要修改配置文件启动质量分析服务,配置文件路径为:
datacenter\ WEB-INF\classes\config\app下的app.extend.xml和app.service.xml
如下面两张图:
质量分析报告
发布数据后平台会自动将按照制定好的质量规则将扣分结果存储到“数据质量监控表(P_Q_MONITORDETAIL)”中,如果需要查看自己的数据是否符合定义的质量规则、是否被扣分、扣分的数值与具体细节可以点击“质量分析报告”进行查询。如下图: