教育,我想对大数据说:“我深爱着你!” (之七)

教育大数据项目建设中的问题和解决方案

关键词:教育信息化、大数据、数据管理、集算器

一、教育大数据转换层次模型

教育大数据具有转换层次的五个过程特征:

数据获取、数据、信息、知识、智慧

教育大数据技术采集的海量教育元数据(结构化、半结构化等;异构异源等),经过ETL(抽取、转换、加载)处理后,清洗掉脏数据和重复数据等后,形成教育大数据归类存储,与大数据平台经过联机分析处理和统计分析等过程,转换为可用的教育信息,再经过数据可视化将教育数据呈现出来,最后形成教育决策来指导教育者和学习的教学,整个过程,大数据完成了从数据到信息、知识和智慧的演变。

教育大数据转换层次模型下图所示。

大数据的处理流程与一般数据的处理过程类似,可以定义为在合适工具的辅助下对广泛异构的数据源进行抽取和集成,将结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析从中提取有益的知识,并利用恰当的方式将结果展现给终端用户。具体来说可以分为数据抽取与集成、数据分析和数据展示。

二、数据处理和数据存储是一个技术挑战

  1、数据抽取与集成

大数据的数据来源非常广泛,既包括传统的关系型数据库,也包括XML 等半结构化数据,以及以视频、音频、文本和其他形式存在的非结构化数据。数据抽取和集成要解决的主要问题就是收集各种碎片化的数据,对数据进行清洗,保证数据质量,同时根据时间演进不断更新数据模式,确定数据实体及其之间的关系,最终将数据按照统一的格式进行存储,以便提供给上层用来进行数据分析。

在很多高校中,因为管理信息系统设计时未考虑到对一些过程数据的收集,导致在分析时缺乏必要的数据来源,需要对应用系统进行扩展;同时对于定义良好的结构化数据很多高校也尚未很好的集成。在大数据时代,异构的数据类型、广泛存在的数据来源、参差不齐的数据质量给数据集成带来了新的挑战。

  目前高校已经基本建立了完备的管理信息系统、学习管理系统等,在统一数据中心中积累了大量的结构化数据;同时各类系统中还散布着大量的半结构化和非结构化数据。半结构化和非结构化的数据经过一定处理后,可以转化为更容易分析使用的结构化数据。

教育大数据的特征之一是规模性,面对海量数据,可以采取分布式文件的系统进行并行运算,也可以采用边缘计算的方式,进行多级运算汇总。

对于半结构化或非结构化的数据,可以采用自然语言理解和信息抽取等方式将其转化为结构化数据。

对于杂质较多的数据,也就是脏数据,可以在数据采集时利用ETL进行清洗。

对于实时产生的数据可以使用自动获取效率优先的方式来采集数据。

下图是数据处理、数据采集和数据存储的示意图。

教育大数据中汇聚着大量的信息:

从学生角度来看,包括联系方式等基本信息,食堂消费、住宿晚归等生活信息,选课、课后作业、借阅图书、成绩等学习信息,参与的社团、竞赛、讲座等第二课堂信息;

从教师角度来看,包含教学任务、课件等教学信息,论文著作、科学研究数据等科研信息;

从管理者的角度来看,包含学校的资产信息、师资信息、招生就业信息等。

同时随着移动互联网以及物联网等新技术的兴起,学校师生主动产生和由设备自动收集的信息越来越多,如微博、微信等社交信息,各类搜索点击记录信息等。

上述信息存在着数据量大、结构复杂、产生频率快的特点。这导致利用常用软件工具捕获、管理和处理此类数据所耗费时间超过了可容忍的时间。

教育大数据在实际应用存在很多技术瓶颈,大数据应用的前提是数据抓取引擎技术。

如:在数据的采集时,面对海量教育数据,数据的存储、处理和分析都存在技术考验;

另外由于目前没有统一的数据规范,不同系统之间的兼容也是一大问题。

北京润乾信息独创的独立数据计算引擎技术,成功的突破了异构数据之间的壁垒,在无需和其他软件进行接口对接、不破坏原有软件运行的基础上,即可自动采集数据并进行统一标准的结构化输出,建立独立的大数据平台。其在教育行业的应用,为教育行业建立大数据平台,促进教育信息化建设向教育大数据的整合应用、模式创新上转变。

下图给出了润乾集算器作为数据抓取和数据联通是的特点。

        2、数据挖掘和学习分析:

数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程。

在大数据时代处理数据理念上有三大转变:抽样到全体、绝对精确到效率、因果到相关。

大数据时代的数据挖掘,它继承于传统数据挖掘又不同于传统数据挖掘。

首先,分析对象不同,传统数据分析的对象是在已知的数据范围中易处理的数据,而基于大数据的数据挖掘对象是包括非结构化数据的全部数据,不能保证原始数据是完整的、清洗过和没有错误的。

其次,分析基础不同,传统分析是建立在关系数据模型之上的,是在系统内就创立的主题之间的关系基础上进行的,而在大数据分析中,绝大部分分析基于纵裂数据库之外。

再次,分析效率不同,传统数据处理过程中需要等待抽取、转换、加载等工作完成。而大数据分析是对数据进行实时分析。

最后,硬件差别,在传统数据处理中所使用硬件比较昂贵。而大数据处理过程加入了对分析软件的使用,所以硬件成本较低。

教育数据挖掘可以向教育者、学习者、教育管理者、家长及教育研究者提供决策帮助,最终提高学习者的学习水平。

基于教育大数据的数据挖掘过程即将学习结果、学习内容、学习资源与教学行为等教育原始数据使用多种技术,如聚类、关系挖掘和模型构建等,最终达到预测学习者发展趋势、促进有效学习的目标。

基于教育大数据的数据挖掘过程如下图所示。

新媒体联盟(New Media Consortium)将学习分析定义为:利用松散耦合的数据收集工具和分析技术,研究分析学习者学习参与、学习表现和学习过程的相关数据,进而对课程、教学和评价进行实时修正。

总之,学习分析运用多种方法采集、存储和分析学习者数据,如移动终端的数据和现场智能数据等,再使用多种技术来分析处理这些数据,最终应用于教育者和学习者,产生评估、预测和干预。

教育大数据学习的具体应用体现在评估、预测和干预。

评估是指基本统计分析及其可视化、发现问题学生、学生社交网络分析与应用。

预测是指学生分类、学生模型的构建、预测学生成绩。

干预是指对教师的教学方法提供改进意见。

除此之外,大数据在学习分析中的应用还包括学生分组与协作、社交网络分析、开发概念图、课件制作、规划和调度等。

  3、数据分析

经过抽取和集成得到的数据, 需要经过分析挖掘其潜在的价值。传统的数据挖掘、机器学习、统计分析等方法仍然可以用来对数据进行分析,只是需要根据大数据的特征进行调整。

首先,为了实现对海量数据的分析,需要依Map/Reduce 模型,将数据拆分处理,然后再将结果汇总,一个完整的分析可能会经过多层类似的处理过程;

其次,大数据的应用通常具有实时性的特点,数据的价值会随着时间的流逝而递减,因此分析方法需要平衡处理的效率和准确率;

最后,大数据一般构建在云计算平台之上,分析方法需要考虑与云计算平台的集成或做为一种云服务。

  4、数据展示

数据分析得到的分析结果,需要以直观可理解的方式呈献给最终用户。

在大数据时代,数据分析产生的结果有可能也是非常大量的,且结果之间的关联关系复杂、数据维度更多,数据可视化技术通过更加适合人类思维的图形化的方式展示数据分析结果,已经被证明是展示数据分析结果非常有效的方法。

常见的可视化方法有:多维叠加式数据可视化、数据在空间、时间坐标中的变化和对比等,当然要将枯燥的信息转换为美丽的、令人印象深刻的图形,需要较高的技术素养和艺术素养。

       5、知识和智慧

  很多高校正在使用大数据分析技术解决遇到的实际问题,如美国德克萨斯大学利用大数据技术分析学校用户IT 使用行为产生的数据,确定用户行为异常,审计IT 基础环境,制定安全防护措施。其他的一些应用场景包括分析学生参与网络课堂产生的数据,进而确定如何改进课程讲述方式,达到因材施教的教育目标。

  高校可以在就业情况分析、学习行为分析、学科规划、心理咨询、校友联络等方面借助大数据分析技术,挖掘数据中潜在的价值。

  分析技术是教育大数据产生知识和智慧的基础,二分析技术是基于大数据进行模型构建,并进行评价、推荐和预测等具体应用的基础。大数据分析技术在近年得到快速发展,智能化、实时化和易用性成为了分析技术的发展特征。

  (5A)智能化

在分析技术方面,大数据与机器学习相结合形成的新型人工智能,已经成为近年最引人瞩目的趋势。大数据与机器学习正让数据分析在统计分析的基础上,更快速地实现智能关系发现和预测,如下图示。AlphaGo就是这一趋势的典型应用范例。在海量数据的基础上,以深度学习为代表的创新算法,通过大规模并行计算,不断迭代演化,最终形成了能够战胜人类的数据智能。

在这里,核心的问题是计算能力的提高,它应该不依赖于数据库等因素。所以库外的内存计算和独立的计算引擎是智能化的关键。大数据与机器学习整合所实现的人工智能,其意义不限于特定的领域应用,而是实现了一般性人工智能技术的突破。这一突破将在医疗、交通、金融和教育等为代表的各个应用领域产生重大影响。从更为广阔的角度,以智慧城市为代表的智能化系统解决方案,预示着智能化大数据技术综合应用的未来前景。由各类设备和传感器获得的数据,可以成为智能化分析的数据来源。

基于大数据的机器学习在完成海量数据汇集与分析的同时,不断演化、提高自身智能水平。数据分析结果驱动智慧城市各个组成部分的智能化活动,基于数据智能的新型技术架构,为未来城市的智慧生活奠定了基础,当然也为智慧教育奠定了基础。

  (5B)实时化

实时分析是大数据技术的另一个发展方向。随着大数据技术的深入发展,各类应用对于数据的实时分析和处理的要求不断提高。与针对历史数据的聚合和分析不同,实时数据分析具有更强的时效性,也对数据存储、计算和呈现提出了更高要求。Hadoop中的批处理框架在对实效性要求较高的分析,例如,实时用户行为分析、用户分类和推荐等应用场景中的局限日益凸显。Spark Streaming、Samza、Storm等流式实时计算框架应运而生。以Spark Streaming为代表的实时分析框架具有优秀的调度机制,快速的分布式计算能力,在数据的汇聚和批处理之间通过关键参数建立平衡,提升了数据吞吐量和性能,对实时计算提供了有效支持。实时性预示着大数据将更深度地融入人们的工作和生活之中,在交通、翻译等需要及时响应的领域中,大数据会体现出更强大的作用。

但是,Hadoop平台的计算能力是在海量的服务器集群的基础上才能体现的,对于某个高校,省厅,甚至教育部都很难做到。如何在有限的服务器集群前提下,提高hadoop平台的数据处理能力和计算速度,是摆在众多大数据平台建设和使用者面前的一个难题。

下图表示了在有限服务器集群的情况下,润乾集算器如何帮助大数据平台提高计算能力的架构。

传统手段要将这些数据转存到一个大数据库中再进行计算,加大数据库负担,多一道IO操作影响性能,实时性也不好,一般只能定时转储。

采用润乾的独立的计算引擎的集算器后,则可以直接获取这些数据进行混合计算。不需要入库出库,性能更好,也可以临时获取数据计算,实时性更好。

  (5C)易用性

近年来,随着技术的不断成熟,大数据应用的门槛不断降低。从数据汇集、模型构建到可视化应用方面都提供了高质量的解决方案。并且,这些分析框架中存在很多优秀的开源项目,如,Caffe、Torch等。Google为Tensor Flow的开源分析工具提供了一个重要选择,Tensor Flow的开发者来自Google Brain团队,它整合了Google在搜索引擎、电子邮件和翻译、图像识别等方面的分析成果。并且应用了数据图技术(Data Flow Graphic)将模型构建过程和产品开发紧密结合,在完成建模实验之后就可以直接将代码应用到产品中。易用性为大数据在垂直领域的应用铺平了道路。

但是由于数据的结构不一致,数据存储不同等原因,各系统产生的数据依然可能产生新的信息孤岛,解决这一问题的核心是建立统一的数据交换和共享平台,下图反映了这一平台的架构。

三、大数据智慧的产生举例:大数据分析框架下的就业问题分析思路

  当前市场经济高速发展、高校不断扩招、就业制度改革不断深化和毕业生数量逐年增加、社会整体就业形势日益严峻,大学生就业问题己经越来越成为目前大家共同关心的话题,研究大学生就业问题具有紧迫性和重要性。

  1. 数据来源

传统的就业分析一般从就业单位、就业地区、所在院系专业、性别、签约类别、就业年份等维度来分析,得到的只是一般意义上的统计结果,对于指导单个学生的就业以及预测未来的就业情况发挥的作用比较有限。应用大数据分析技术,就可以将学生就业模型涉及到的学习情况、社团信息、生活信息、校外实习、参加的竞赛及获奖情况、所投公司当年的招聘计划、历届学生在所投公司的表现等众多的信息进行收集。

可以从下图所示的各类系统中抽取学生的各类信息,构成就业分析模型所需的各类数据。

    2. 数据抽取与存储

针对数据来源的不同,我们采取不同的数据抽取方式,

对于结构良好的各信息系统的数据,我们采用润乾的ETL将数据抽取到HBase 数据库中;

对于Web 网页这类非结构化数据,通过Nutch进行抓取,Solr 对数据进行索引后存储到Hbase 数据库中,示意图如下图所示。

Hbase数据库是一个开源的高可靠性、高性能、可伸缩、并非建立在关系模型基础上的分布式数据库,用以存储大规模结构化数据。

3. 数据分析

  将就业分析模型所需的数据存储在Hbase数据库后,可以利用Hive对Hbase中的数据进行查询和分析。Hive提供了一种简单的类SQL查询语言,十分适合数据仓库的统计分析。通过Hive 我们可以实现传统数据仓库所实现的对就业数据的汇总统计分析,而且可以容易的扩展其存储能力和计算能力。

除了数据统计分析之外,我们还可以利用Mahout 这个机器学习工具对数据进行监督学习和无监督学习。监督学习使用先验知识对数据进行分类;无监督学习则由计算机自己学习处理数据,并在做出判断后给予一定的激励或惩罚。在进行就业分析时,我们可以使用Mahout 已经实现的具体方法。

首先是协作筛选,通过分析已就业学生的成绩、参加的社团活动、关注的行业、性格特点、就业单位、就业岗位等,计算学生之间的相似度,为即将毕业的学生推荐适合的就业单位和岗位,提供个性化的服务;

其次是聚类,这是一种无监督的机器学习方法,我们可以通过不同的维度将未能及时就业的学生进行分析,从中找出其共同的特点,再通过比较在校学生的相关属性,及时对学生给出预警,以便其在后续的学习和生活中加以改进,如下图所示。

       4. 数据展示

  在数据展示层, 我们可以使用润乾报表软件将分析的结果进行可视化的展示,润乾报表非常适合中国式复杂报表,可以将数据与美观的图表完美地结合在一起,它包含非常多的预定义的图表格式,同时还可以将时间、地图等多种维度在单一的图表中进行展示。

四、结语

与传统数据不同,大数据主要讲究的是数据之间的相关性,它不仅可以实现数据的存储,还可以利用这些数据达到预知发展趋势的目的,与传统数据相比,它更实现了对数据价值的深入挖掘。

传统数据与大数据应用的方向也不相同,传统数据主要进行信息的存储,针对的是过去的数据,已过去的数据为核心。而大数据是对传统数据的提取和分析,以达到预知发展趋势的目的,是以事物未来的发展为核心。

大数据在高校应用的美好前景令人神往,但目前大数据的应用还存在很多应用难点,主要有数据集成困难、数据分析方法有待改进和数据隐私问题。

本文探讨了出数据隐私外的其他问题,共大家参考讨论。

大数据可应用于对学生和教师群体或者个人的分析中,从而帮助学生或者教师改进自己的学习与教学以及科研工作。不过,校园大数据分析面临的挑战也多,大数据分析面临几个挑战。

第一,综合多维度性。评价一个人的能力,本身就是一个非常复杂的课题,能否在已有研究成果基础上,尽可能将关于人的评价的多维度数据进行长期的收集,如何做到长期有序的收集是挑战之一;

第二,复杂性。客观地讲,影响一个人的事件太多,有时一句话、一件细微的小事就可能影响人的一生,如何将这些事件进行有机梳理、收集、权重关系厘清非常不容易;

第三,长期渗透性。教育的规律有时很难厘清,成功的个体也未必能够简单复制,评价教育本身的指标都有一定程度的缺陷;

第四,交互性。教育说到底是一个交互的过程,交互的内容收集一定程度上与隐私等是矛盾的。

此外,必须意识到:容易被忽略的问题是最终用户与信息库之间存在着信息获取、信息处理和信息提供方面的巨大矛盾,师生用户始终游离于数据产生和交换的信息化过程之外。

【TIPs】

“销盟”成员企业在2017年中,分别在教育部和省级平台、高校、职校和普教等领域有着较好的合作和成功案例,这些合作包括系统运维、业务性能管理、数据平台建设、数据共享、安全体系建设、大数据分析、图书管理等。欢迎大家咨询合作。

在这里我们看到随着全国50多万所学校、1700多万名教师、2.4亿名学生、200多万栋校舍等海量的数据入库。全国各类应用超过500个,省部级应用超过100个,部级应用超过80个这样一个庞大的体系的运转,在信息安全、数据信息孤岛的信息共享、数据管理、分析、传输、同步等机会将会大量的涌现。这让笔者想起了销盟成员企业“润乾”的一句话:“未来无处不计算,应用技术推动发展!

希望本文能帮助关注教育行业的企业和应用软件的企业了解未来趋势,有任何关于教育行业的IT和大数据、人工智能智能的问题和项目,我们可以提供相关的咨询和帮助,将是笔者和销盟的荣幸!

欢迎讨论和留言。

分享是一种美德,转载请注明来源和出处!

“相关文章阅读”

教育,我想对大数据说:"我深爱着你!" (之一)

教育,我想对大数据说:"我深爱着你!" (之二)

教育,我想对大数据说:"我深爱着你!" (之三)

教育,我想对大数据说:“我深爱着你!” (之四)

教育,我想对大数据说:“我深爱着你!” (之五)

教育,我想对大数据说:“我深爱着你!” (之六)

(0)

相关推荐