Logo
    立即注册
    数说方舟
    产品文档
    数据质量
    最近更新时间:2022-08-16 10:28:12

    概述

    数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性、一致性、准确性、唯一性五个维度进行单列、跨列、单表的分析。 数据质量监控主界面包括以下功能模块:

    功能 说明
    质检规则 该模块用户配置、管理质检规则
    规则模板 规则模板是为了规则复用抽象出的一个概念,该模块管理系统创建和用户自建的规则模板,模板中包含规则的 SQL 定义、规则的比较方式、参数定义等

     

    术语&基本概念

    • 质检规则(Rule):质检规则是数据质检的核心概念,质检规则表述了要对哪些数据源做怎样的质检,如何才算质检通过,如质检不通过,要怎么样通知到用户,总的来说,质检规则分为以下四类核心信息:
      • 数据源信息:数据源是质检的对象,系统支持表级和字段级质检规则,需要在配置规则是填入数据源信息,一个质检规则,支持关联多个数据源
      • 统计:统计是质检规则的核心,其规定了如何使用什么的指标衡量数据质量,统计部分的输入是数据源信息,输出是统计指标
      • 校验:校验是将统计的输出结果与用户期望进行对比,表示质检是否通过,输出模块会更加校验结果判断是否输出告警
      • 输出:输出模块主要配置质检校验完成后,根据校验结果对用户进行提醒、发送异常数据等行为
    • 质检任务(Task):质检任务是一次具体的调度任务,按对应的质检规则配置对数据源进行质检
    • 规则模板(Rule template):规则模板是为了规则复用抽象出的一个概念,模板中包含规则的 SQL 定义、规则的比较方式、参数定义。  

      新建质检规则

      配置流程

      1.进入【数据管理】-【数据质量】-【质检规则】模块     2.点击【+】,新建规则     3.填写规则配置表单   规则参数配置如下表所示:

    配置步骤 配置项 说明
    基本信息 规则名称 由用户填写,质检规则的名称
    描述 描述质检规则的说明,非必填
    质检配置 规则模板 选择质检模板,目前支持模板:字段级模板和表级模板
    质检范围 质检范围可选择全表扫描或按比例抽样。该配置项只支持单个数据源的作为输入的模板
    校验方式 比较统计结果与用户期望,当不满足条件时将触发告警
    输出配置 告警方式 告警方式支持两种:
    -企业微信机器人,需要用户填写webhook,支持多个
    -邮箱,需要用户填写邮箱
    运行配置 执行频率 执行质检任务的频率,支持按小时或按天为周期
    生效时间 首次执行质检任务的时间
    触发时刻 任务每次触发的具体时间点。若选择的号数大于当前月的自然天数,将以该月最后一天为准。例如:每31号12:00:00;当前月为6月时,将会在6月30号12:00:00触发任务。

     

    源字段筛选器配置

    在选择数据源后,点击筛选器按钮,进入源字段筛选界面       点击【新增条件】-【选择字段】-【选择规则】,可以新增多个条件。配置完条件后,通过表达式编辑条件组合。源字段将根据表达式进行筛选。       筛选器配置说明:

    配置类型 配置项 说明
    条件 数据源下全部字段 目前仅支持选择数值、字符串、时间类型字段。由用户选择筛选字段
    判断设置 对应字段的筛选规则 数值类型规则:
    全部记录、等于下列任意值、不等于下列任意值、大于、等于大于等于、小于等于、范围在、为空值、非空值
    字符串类型规则:
    全部记录、等于下列任意值、不等于下列任意值、为空值、非空值
    时间类型规则:
    全部记录、时间范围在、最近一段时间、为空值、非空值
    编辑条件组合 表达式 由用户输入表达式,设定筛选条件的关系

      当数据源已保存了筛选条件,筛选器显示按钮:  

    查看规则实例

    点击质检规则中的详情按钮,可查看规则内容,部分配置参数允许修改。   file     点击【质检任务】可查看规则运行实例   file  

    按数据源查看质检结果

    用户可在【数据源详情】-【数据质量】中查看该数据源关联的质检规则,以及任务运行情况   file

    微信扫描二维码在线咨询