上海外国语大学:数据中台帮高校实现数据资产化
数据中台“让一切业务数据化,一切数据业务化”,契合高校信息化建设的方向。以下是作者对上海外国语大学数据中台系统建设的方案探讨。
数据中台的优势
数据中台系统,就是对海量数据进行采集、计算、存储、加工,形成标准的大数据资产层,为组织的内外部客户提供高效数据服务。数据中台能够降低数据库和数据仓库的重复建设,减少烟囱式协作的成本,帮助组织构建新型的差异化竞争优势。
介于前台数据应用层和后台原始数据管理层的中间层就是数据中台。数据中台主要是为了支持前端各类数据服务而对后台原始数据进行加工和整合后生成的各类数据集合。这些数据集合可能有明确的服务对象,也可能尚无明确的服务对象。
数据中台不同于数据库。目前,高校各部门使用的业务系统数据库主要是关系型数据库,聚焦于对人、财、物的管理。而数据中台中的数据,不遵循范式要求,并不针对某类具体实体或者联系的管理,主要是面向应用;而且数据中台中的数据不仅包括实体和联系数据,还包括各类日志数据、图表、文本、音视频资料等半结构化和非结构化的数据。
数据中台的概念也不同于数据仓库,主要体现在以下三个方面:
1.数据来源不同。数据仓库的数据主要来源于各类业务数据;而数据中台的数据除了各类业务数据外,还包括各类日志、IOT(Internet of Things)数据、半结构化和非结构化数据等。
2.对数据实时性要求不同。数据仓库主要是为了支持决策,因此,并不要求数据达到实时更新,一般能做到T+1就可以;但数据中台由于要进行实时的业务支持和快速的问题分析,因此对数据的实时性要求更高。
3.服务对象不同。数据仓库的服务对象主要是企业经营的决策者;而数据中台的服务对象不仅包括决策者,还包括业务人员、运维人员、各类应用系统开发人员以及合作伙伴等。
此外,相比较于数据库和数据仓库,数据中台离业务更近,对需求的响应更迅速。组织中现有的数据库和数据仓库都可以成为中台系统的数据来源。
数据中台系统的建立,可以降低数据服务的门槛,让数据真正实现资产化和业务化,成为组织新型核心竞争力的来源。
建立数据中台系统的动因
目前,高校信息化管理部门同时肩负管理(主要是IT设备和应用系统管理)和IT服务两种职能,按照网络、应用系统开发、数据整合、多媒体教室设备管理、实验室管理、网络安全管理、一卡通系统管理、有线电视网络管理等“块状”业务设计组织架构。但是,随着用户需求的变更和技术的发展,这种“块状”的业务划分方法将面临变革,转变为图1所示的层次状架构。
高效IT服务
随着技术的发展,各类IT服务在前端技术上慢慢趋同,面向师生的各种网络服务、校园卡服务、电教服务等所需的技能差异逐渐缩小,此类服务在客观上可以整合在一个服务团队中完成,通过工单系统快速响应、定位、诊断并处理用户提出的问题,这套工单系统需要完整的师生数据、设备台账数据、各类设备和系统日志数据的支持。
高质量设备和资产管理
随着师生对校园网络和各类应用系统的依赖越来越深,“网络不间断”和“业务不中断”成为广大师生对信息化的基本诉求,这在客观上要求高校信息化管理部门能够持续提供高质量的IT运维,能够预防并快速解决软硬件系统中出现的任何问题。这些都在客观上需要完整的设备资产、台账、日志及知识库等数据的支持。
流程与决策支持
随着高校之间竞争的加剧,高校行政系统运行效率和决策质量成为高校之间竞争的一个焦点。“一站式网上服务”、“一网通办”成为高校各部门提供高效、高质量服务的客观要求。此外,校各级管理部门也常常需要快速、完整、多维度的数据报表,以便辅助决策。这些流程配置和决策支持功能的实现,都依赖于对各类业务数据和日志的实时采集、加工和分析。
综上,在高校信息化管理部门的IT服务、IT设备及资产管理以及流程与决策支持三大业务逐渐分离的趋势下,一套强大的数据中台系统成为高校信息化业务开展的基础。
上海外国语大学数据中台系统
建设方案
考虑到系统功能的持续扩展性,为防止系统由于过分依赖厂商或太过封闭造成今后的持续开发风险,本中台系统由校方大数据项目团队自主进行整体架构设计,在综合权衡学校的数据规模和应用需求后,采用开源和自主开发相结合的方式进行建设。系统架构如图2所示。
数据采集层采集人员数据、教务数据、财务数据库、科研数据库、人事档案数据、学科数据库、日志事件库等业务基础数据,支持离线和实时两种数据采集方式。离线数据采集主要支持MySQL、SQL Server、Oracle、离线文件等;实时数据采集主要支持 MySQL、日志等,并支持API接口实现实时数据上报。实时数据采集对于其他类型的实时数据提供“边缘数据采集工具集”,边缘数据采集工具采用GO语言开发,直接部署在数据产生节点上,避免了集中处理数据的压力。采集来的数据都被放入一个基于Apache Kafka 的消息队列中,该消息队列只投递一次,避免因后续数据加工平台和数据采集工具的处理能力不匹配而丢失数据。
对于业务数据,利用ETL工具定期从业务系统里抽取数据放到临时数据库,同时进行一些数据整合操作,再利用工具将临时数据库里的数据存入Kafka里。这些数据中,大部分是Syslog形式的,直接存入Kafka里即可;另外有些数据需要利用厂商提供的API导入Kafka里;还有一些手工填报的数据,需要利用Excel文件导入Kafka里。
在数据加工层,有数个数据处理节点不间断地从Kafka里将数据取出,并完成两项工作,一是将部分决策支持模型需要的原始数据转存到6个月存储期的集群中;二是抽取需要的数据到上层的查询分析集群。
在数据服务层,提供基于Elastic Stack的大数据查询和分析,方便用户快速获得所需数据;提供运行于ES数据集群之上、用户自定义模型的各类预警和决策参考工具,利用ELK的预警模块,通过“Push”和“Pull”两种方式提供给用户;提供开放的数据集、开放API以及标签工厂等资源,在保证数据安全的前提下,方便用户获取数据和重新定义数据,让用户享受快速便利的数据服务。
问题与不足
数据中台系统汇集了学校各业务系统的业务数据和硬件资源的日志数据,是一个集中的校园数据平台,但也存在一定的问题与不足。首先本系统的安全性和权限管理是个非常重要的问题;其次数据分析所需的技能与高校信息化管理部门传统的技能要求不同,因此,高校信息化管理部门的人员技能更新和人才引入也是一个亟需关注的问题;第三,决策支持模型的设计中,有价值的模型是要有充足的理论依据的,因此,决策支持模型的设计需要在理论层面获得支持。
(本文源自《上海外国语大学:数据中台帮高校实现数据资产化》,作者:赵衍,单位为上海外国语大学信息技术中心,全文刊载于《中国教育网络》杂志2019年8月刊)