数字校园 | 中国矿业大学构建主数据管理平台
中国矿业大学自2012年启动数字化校园建设以来,已经建立校园信息门户系统,集成了面向教学科研服务的本科教务、研究生教务、科研系统、MOOC平台、实践教学等系统,以及面向管理保障服务的OA系统、财务、图书、一卡通、计费、迎新离校、节能平台等系统。为彻底解决当前数据共享中存在的“数据质量不高,数据流向混乱,共享度不足,历史数据缺失”问题,对学校数据中心进行了重新建构,搭建起主数据管理平台,较好地实现了数据的深度共享。
系统架构
主数据管理平台密切围绕高校的教学、管理、科研、人事、财务等核心功能,强调各业务数据系统的协调和整合,实现各类数据的抽取采集、存储共享、分析应用等核心功能,适应学校的改革发展需求。我们搭建的主数据管理平台架构(如图1所示),主要包含了数据源、数据集成共享、数据存储、数据接口、应用服务五个层次。
业务数据源包括高校的各类业务数据,涵盖所有需要集成到数据中心的业务数据,特别是需要重复利用、多次共享、互相关联的基础数据。
数据集成层通过流向规划工具、数据集成工具、元数据管理工具、主数据管理工具、代码标准工具解决全局性共享问题,能够灵活适应高校复杂的业务环境。将收集数据进行异构数据库的转换,支持多种异构数据源的数据交换,支持事件触发、增量更新、定时抽取、策略抽取、日志挖掘等多种同步或异步的数据维护方式。支持Oracle、Microsoft SQL Server(2000&2005)、Sybase、MySQL、MicrosoftAccess等主流数据库,支持Excel、dBase、Foxbase、Webservice、Photo、Tabled Text、离散表格等多种数据源,支持扩展FTP、Excel/Foxpro、BLOB、CLOB类型的数据集成接口。
数据存储层主要存储主数据管理平台的各类数据,建有元数据库、数据代码仓库、历史库、主数据共享库、数据集市、应用服务库。元数据库主要对数据源、数据对象管理,定义了主数据、业务数据的语义规则。数据代码库主要包括代码标准体系、校内自定义代码规范、使用规范等。历史库是各类数据库的历史记录,是历史切片,OLAP分析的来源。主数据库用以存储业务系统间需要共享的数据,经抽取整合业务系统需要被共享的数据。数据集市建立了多种主题数据分析模型,存储了多维数据分析表,为更深入的数据分析提供支持。应用服务库存储用户的注册信息、权限信息、应用系统共享数据的提供和使用情况。
数据接口层通过ESB总线建立数据服务接口,便于其他应用对主数据库共享数据、历史库的数据进行访问和调研,封装数据集市分析模型和应用服务模型,同时能够访问数据源层内的校内各业务系统。
应用服务层简单分为服务分析决策和师生综合服务两大应用领域,同时引入系统监控工具和主数据监控工具保障平台的运行。系统运行监控工具主要对整个平台进行系统健康检查,对集成过程、运行情况和数据情况进行运维监控。主数据管理工具对主数据质量监督,既抽采又监控,切实推进业务系统数据质量。
建设内容
1.信息标准
规范元数据库建设,统一维护,分类管理,确保主数据及业务系统数据定义清晰,方便查询。支持业务系统元数据的注册,形成全校完整的数据视图。元数据库的数据源管理包括系统名称、数据库类型、连接字符串、连接用户名、数据对象所有者、是否启用、修改时间等属性。数据对象包括基本信息、字段属性、引用关系等属性。支持自定义校标,可以根据需求,制定校级信息编码标准及相关信息标准子集。
标准代码管理包括日常管理、变更审核、流向规划代码比对和代码使用等几个功能(如图2所示)。标准提供方管理员负责规划和控制代码流向,主数据管理平台标准管理员负责审核校标代码变更申请和日常管理工作。标准使用方管理员在业务代码库使用前必须与代码标准库进行认真比对。
2.数据集成与共享
数据集成层由数据交换集成平台实现,是主数据管理平台的关键部分,能够精准实现数据抽采收集与数据另存之间数据传送和交换的功能。按照国标和部标,数据管理模式采用“集中在代码标准管理工具中管理-业务系统使用”的模式。这种数据集成方法优点比较突出,一方面不更改和损害原业务系统的数据,保证了数据的统一性和完整性,另一方面完成了数据的标准化流向和集成。
数据流向规划能够规范业务系统建设与集成,指导信息化建设方向,持续积累业务数据。设计数据流向规划工具能够规范业务系统的建设与集成,有效持续积累数据。下面,我们以教职工数据的流向规划(如图3所示)为例,进一步阐述数据流向规划的重要性。平台首先从业务部门提取了任课、职称、教改、科研、工资等信息,归纳出基本信息、简历信息、奖惩情况、职称评定进修等共享数据。最后,共享数据将能够广泛具体应用在教学、科研、财务、报表、公告等领域。共享数据的正确性和唯一性是数据再次利用的基础。
数据交换集成支持Oracle、SQL Server等各种异构数据源,通过集成的策略配置,满足不同场景数据交换的需求,涵盖了抽取、筛选、过滤、转换、清洗、装载等一系列过程。数据抽取根据各业务系统数据库事先定义的抽取规则,能够实现自动化抽取和筛选过滤。在数据转换过程中,根据信息变更的频繁程度采用实时更新或定期上传的方式。对于诸如教职工和学生基本信息的修改等数据实时性要求不高的信息,应照顾服务器的并发能力和负载能力,采用空闲时间采集配置的数据同步策略。
数据质量检查工具能够对集成数据做出验证和质量监控,生成完善的数据集成日志。数据清洗能够实现多余、错误数据的修改删除功能,支持图形化数据转化与映射,支持数据增量抽取和数据转换函数自定义等操作。数据装载是指将清洗后的数据初始化到数据库中,包括数据表、代码表的更新管理等操作。
根据数据集成层的功能需求,我们设计了流向规划工具、数据集成工具、元数据管理工具、代码标准工具、主数据管理工具、数据质量检查工具等6种工具。
流向规划工具:主要用于规划代码流向,包括创建、主管、使用、查询四种功能设计。数据流向分为对象类和活动类两个大类,前者包括逻辑对象子类和实体对象子类,后者包括对象管理活动子类、综合活动子类。各对象类分别与人事库、学工库、科研库、资产库建立起关系。
数据集成工具:制作和调度运行数据交换接口,支持多种数据源,灵活适应复杂环境。对象类是指数据对象,主要包括实体对象和逻辑对象。实体对象是指传统的数据对象,如人、活动等;而逻辑对象则是指一些非传统的数据对象,如院系信息等。活动类包括对象管理活动和综合管理活动,可以按照对象的生命周期进行管理活动的设定。其中对象管理活动指基于对象的管理部分活动可以进行清晰的划分和归纳的数据,比如一些对实体对象的管理;综合管理活动是指包含的内容和相关联系会随着应用、定位以及数据使用的角度不同而变化的活动。具有灵活的策略配置,按不同场景数据交换急迫程度要求,按运行周期、事件触发、交换模式等,有针对性地进行管理。
元数据管理工具:负责数据源、数据对象的定义规则,确保语义清晰可查。
代码标准工具:负责代码标准日常管理。能够有效进行标准普及和动态更新调整,实现多种数据的真正集成和共享。具有代码标准管理、代码标准查询、代码使用范围检索、代码映射关系、代码使用情况检查等功能,实现标准的制定(Draw)、维护(Edit)、理解(Understand)、分享(Share)、集成(Integration)。同时,监督代码标准的执行情况,逐步优化趋向统一。
主数据管理工具:能够有效地融合老系统、新系统和未开发系统的三类数据。原业务系统集成方法,由数据流向规划工具提出数据集成方案,元数据管理工具和代码标准管理工具分别负责业务系统元数据注册及代码标准检测,经过方案评审后,实施标准迭代。最后通过数据集成工具和数据共享接口发表工具,实施系统集成,通过运行监控工具实时监控系统的运行状态。规范新业务系统集成,正式开发前使用代码标准和数据流向工具对系统数据事先标准化规范。进入开发环节后,进一步规范数据库设计、代码和主数据模式,进行EMAP数据建模预置,规范应用服务接入和数据审核。未开发系统的数据,可以授权给业务部门,通过简单导入、导出功能完成数据采集,保证数据共享的完整性。
3.数据存储
纯粹的数据仓库和联邦数据库系统是不能适应数字化校园建设需求的。我们采用最新数据和历史数据分类存储,既保证交换共享效率,又使得数据存储更完整,支持数据分析和数据的记录追踪。
根据整个平台的规划,我们建立了数据集市、应用服务库、元数据库、代码标准库、主数据库和历史库等6个数据库分别存储不同的数据集合。
数据集市:主要运用于校内数据的决策分析,以主题模式存储各类管理数据,实现了标准评估、预测、差异分析、问题定位等,建立事实表、维度表、维度级别、管理关系、逻辑列等,实现了钻取、切片、即席查询、即席分析等功能。
应用数据库:主要面向师生的具体应用服务,存储了系统授权或系统用户的注册信息、权限信息,能够满足大量、灵活和复杂的开发需求,集成了需提取共享数据。
元数据库:存储主数据和业务数据的语义规则,各种数据库的结构和内容展示。
代码标准库:按照国标、部标和行业标准,建有学校特色的代码标准体系库。
主数据库:存储全校范围内的共享数据,保障提供数据信息正确性、权威性和及时性。建成了以师生为中心的全面人事数据,涉及教学、科研、管理、后勤、财务等相关的活动数据。同时广泛使用结构化数据、半结构化数据及非结构化数据等多样化的数据形式。
历史库:根据归档规则,对主数据库、代码库的数据进行归档,以便开展基于历史数据的统计分析工作。引入数据仓库中拉链表,全程记录数据从始至今的所有状态。
4.数据接口
数据接口是连接主数据管理平台和应用服务的关键环节。数据共享接口适配器能够有效地融合学生、教师、科研、组织、财务等组件,并通过ESB总线建立统一数据服务接口,方便应用软件对主数据库和历史库的数据进行访问和调用,有效地解决共享度不足的问题。
数据共享接口发布工具:采用面向服务体系架构(Service Oriented Architecture,SOA),把主数据封装,供第三方开发者使用。采用WebService数据服务共享方式,可以减少对数据库的直接访问,满足实时、按需的共享需求。
5.数据应用及质控工具
主数据的集成存储是为实现基于共享的分析决策和教学、学生、管理、科研、财务及后勤服务等各项应用。数据集市和应用服务库的复杂建模、多维分析、可视化实现,能够有效服务高校管理层决策及智能决策提供可执行的数据应用。
系统应用直接面向各类用户,给用户带来了最终体验。有效管控系统的运行情况和数据质量,引入运行监控工具、数据质量检测工具和云服务。
系统运行监控工具:对系统健康检查,对各类操作、集成过程、运行情况和数据情况进行运维监控。采用列表、框图、进程图等表现形式,展现出系统动态、数据接口情况、数据质量、异常、信息标准和主数据情况等信息。
主数据监控工具:监督主数据质量,避免只抽采不监督,推进业务系统数据质量提升。引入空检查规则、代码检查规则、文本检查规则、逻辑表达式规则。代码检查主要核实字段在系统预先定义的代码表中。文本检查主要检查文本取值是否满足长度、格式和固定编码规则要求,如单个长度、多个长度范围组合,数字、字母、大写字母、小写字母、字母数字、汉字等;预定义编码如:邮政编码、Email地址、URL地址和身份证号等。逻辑表达检查主要核实一个或多个字段取值是否满足指定的逻辑表达式,如单个字段的取值范围、多个字段的逻辑关系等。
云服务平台:与开发公司有效对接,纳入公司对大学管理平台的运行情况综合监督分析体系,方便产品升级,实施新规范。
(作者:辛良 侯效礼 陈越 崔晓鹏。辛良单位为中国矿业大学党政办公室,侯效礼 陈越 崔晓鹏单位为中国矿业大学数字化校园办公室)