数据质量控制是指通过一系列的工艺措施,确保数据在采集、存储、传输等环节中满足相关质量要求的过程。
方法
数据质量控制的方法是一种战略性且系统化的手段,旨在帮助企业有效地实施数据质量项目。这种方法强调了业务部门与
信息技术部门之间明确的角色分配和责任划分,同时配备了相应的技术和工具,以应对数据质量控制的挑战。
Informatica提出的六步法为数据质量控制提供了指导,涵盖了从初步的数据探索到持续监测及优化的全过程。在这六个步骤中,业务分析师、数据管理员、IT开发人员和管理员等不同角色的专业人员能够协同使用Informatica数据质量解决方案,并将其应用于企业内的所有数据领域和应用程序。
特征
理想的数据质量方案应该具备以下特征:
- 合作性:业务部门和
信息技术部门共同承担责任,不同的专业人员拥有明确的任务和适应其独特技能和技术的工具。
- 前瞻性:业务部门和信息技术部门意识到所有组织都将受到劣质数据的影响,并采取积极措施在不良数据损害企业绩效之前探测和解决问题。
- 可重复使用性:数据探索和清理的业务规则可以重复应用于任何数量的应用程序,无论数据是内部预置、在合作伙伴处还是在云端。
- 普遍深入性:数据质量应当涵盖所有相关人员、数据领域、项目和应用程序,无论数据是内部预置、在合作伙伴处还是在云端。
深入普遍的数据质量控制
仅仅有一两个策略性数据质量方案是不够的。随着数据量的增长、数据要求的提高、数据流采用新的渠道,必须在企业层面处理数据质量。数据质量控制必须做到普遍而深入。为了普遍深入地开展数据质量控制:
- 更多人需要参与数据质量控制流程。数据质量控制必须得到整个企业的共同努力。每个人(包括业务经理、数据管理员、分析师和IT开发人员)都需要配备他们所需工具,共同承担数据的责任。
- 对于低劣数据对业务的影响,必须有清楚的认识。在你组织中的每个人都必须将数据视为最有价值的企业资产。在清楚数据的宝贵价值之后,业务部门和
信息技术部门需要更加主动地参与、负责并确保数据的质量。
- 数据质量控制需要扩展到各个领域。数据质量控制的开展不限于姓名和地址,还应包括所有数据域,例如产品、财务以及资产数据。
- 必须在所有应用程序中部署通用的数据质量规则。必须主动防止劣质数据进入组织;必须主动使用数据服务清洗劣质数据。
- 必须公布和共享数据质量记分卡。整个组织需要跨越所有项目、流程和应用程序,监控并检测数据质量。
实施普遍深入的数据质量控制意味着建立实现以下目标所必需的组织、流程和基础设施:
- 提高所有相关人士的能力
- 支持所有数据域
- 访问和部署通用的数据质量规则,适用于任何数据源中的任何数据(无论是企业内部还是互联网云)