文/高亮吴先斌
不论是高校还是其他行业,管理信息系统数据质量的重要性不言而喻。在业务层面,数据质量问题不仅会影响单点业务的正常开展,还会影响与该业务相关的其他业务顺利开展;在决策层面,数据质量问题会直接影响到管理层的决策依据是否准确、客观。
高校各类业务较多,应用系统繁杂,在系统建设过程中往往会忽视数据质量的重要性,没有采取足够的措施,导致随着系统和数据的逐步深入应用,数据质量问题一点点暴露出来,比如数据的有效性、准确性、一致性等。最坏的结果就是用户感觉系统和数据是不可信的,最终放弃了使用系统,这样也就失去了建设系统的意义。
从高校数据质量管理工作进展情况来看,在思想上目前还没有引起高校CIO的足够重视,在管理制度、技术措施等方面还没有开展更多有效工作。数据质量是一个非常复杂的系统性问题,解决数据质量问题应该从数据质量管理制度、应用系统建设、数据质量监控三个方面开展,并且三者要有机结合形成联动,单靠某一方面的努力是不够的。我们要清楚一点,再完美的系统都存在数据质量问题,数据质量监控只是一种必不可少的补充手段,已经到了解决问题的下游。本文主要介绍一种基于规则库的数据质量自动监控平台实现方法及其在推动数据质量管理方面的重要作用。
监控平台架构
数据质量监控平台主要包括三个部分:数据层、功能层和应用层,平台架构如图1所示。
1.数据层
数据层定义了数据质量监控的对象,主要是各核心业务系统的数据,如人事系统、教学系统、科研系统、学生系统等。
2.功能层
功能层是数据质量监控平台的核心部分,包括数据质量检查规则的定义、数据质量检查规则脚本、检查规则执行引擎、数据质量检查规则执行情况监控等。
3.应用层
数据质量检查结果可以通过两种方式访问:一种是通过邮件订阅方式将数据质量检查结果发给相关人员,另一种方式利用前端展示工具(如MicroStrategy、Cognos、Tableau等)开发数据质量在线分析报表、仪表盘、分析报告等。前端展示报表不仅能够查看汇总数据,而且能够通过钻取功能查看明细数据以便业务人员能够准确定位到业务系统的错误数据。