大数据时代,企业如何利用数据实现精准化和个性化管理及服务 | 最佳实践分享

本文原题:《大数据时代背景教育企业的精准化和个性化管理及服务实践》,以教育行业项目的建设为例,介绍了如何通过数据采集、数据清洗、数据治理、数据挖掘、数据分析、数据管理和服务的全方位大数据管理,为每个学生进行精准画像,从而实现精准化个性化服务、前置性预警引导服务等,为领导提供数据支持和决策参考,最终实现管理提升。该分享值得各个行业企业参考。

1 项目概述

1.1 项目背景

随着时代的不断进步,科技的迅速发展,当前人们的生活已经发生了巨大的改变,越来越多的科学技术成果出现在人们的生活当中,给人们的生活、学习、还有工作都带来了极大的便捷。现在人们的生活模式已经发生了翻天覆地的改变,为了不断的适应社会的具体状况,人们也在不断的对自身做出相应的调整,这样的状况在我国的高校中也是如此。

当前的社会被人们称为大数据时代,在这样的时代当中大数据为人们更好的认识这个世界提供了帮助,同时也为改变这个世界提供了全新的方法与技术体系。对于高校来说,是一个知识最密集、网络信息技术运用充分、思想最活跃的前沿征地,为此我们要对高校的发展给予高度的重视。

大数据时代已经来临,教育行业作为社会大众共享的无形财富,其开放己成为数据整合和共享应用的前提条件。“十三五'期间有望形成和谐健康的行业生态。基础设施提供商、大数据服务商、数据挖掘与分析提供商、数据应用服务提供商、数据安全提供商、教育行政部门以及教育大数据标准研制单位等诸多角色通过合理分工、有效协同,推进高校大数据的持续有序发展。

数字化校园历经建设多年,沉淀在数字化校园系统中的数据未释放数据的价值来指导高校进行科学决策与科学管理。所以,数据建设势必要提上高校信息化建设日程。高校信息化已数据作为切入点进行整体规划。高校信息化在高校建设中,已经从网络化到数字化,从数字化到智慧化演进,作为智慧化最突出的标志之一,数据化已经成为高校智慧校园建设的任务。如何利用数据的采集,分析,计算,挖掘来支撑高校的信息化战略已成为未来战略的必然趋势。

1.2 需求分析

随着当今时代的不断发展,人们逐渐发现以往传统的高校学生工作管理模式已经不能够满足人们具体的生活需要,高校要想发展的更好,要想给学生们提供一个良好的教育环境,那么一定要对自身的管理模式机型进行改变,因为只有这样高校才能够长期稳定的发展下去。现在的高校在对自身的管理模式进行改变的时候,深受社会大数据时代背景的影响,同时这也是高校自身在进行改进的时候必须参考的一个数据。

教育管理体制改革需求

在我国教育管理体制的不断改革与发展中,各大高校的招生规模越来越大,所设立的专业也越来越多,相对于高校招生量来说,其管理人员的数量却没有增加,更没有信息化管理意识。虽然一些高校也为学校扩招工作作了一系列的准备工作,加大了高校辅导员等等的管理队伍建设,但管理人员的增长水平远远达不到高校学生管理工作的需求,以至于使很多管理人员一身兼多职,这样不仅不能够保证高校的教学质量,而且还使学生的管理工作难以以达到理想状态,这些都是制约高校健康发展的重要因素。

大数据时代里,高校学生管理工作难度加大 21世纪是信息化的世纪、是网络化的世纪,大数据时代的到来不仅给高校的学生管理工作带来了很大的便利性,同时也让其面临着巨大的压力的挑战,使学校管理工作的难度越来越大,这就要求高校学生管理的模式能够与时俱进,这样才能够掌握学生们的思想变化,适应学生们的生活方式。

学生管理精准化需求

大数据时代对高校学生的管理工作有非常巨大的帮助,高校为了更好的适应时代的发展,对自身学生工作的管理模式已经做出了巨大的改变。在当今的社会当中随着计算机信息技术的不断发展,互联网的最初状态已经发生了翻天覆地的变化,高校已经不再运用以往传统的管理模式来进行学生的管理工作,而是在学生的管理工作中加入了当今先进的科学技术手段,目前高校已经把社交网络技术、计算机信息技术、电子商务技术、互联网技术等应用到自身的学生管理工作当中,这些先进技术的引进大大的提高了高校学生管理工作的工作效率。

学生管理工作模式变革需求

随着社会的发展和高等教育的深刻变革,学生工作的理念和方法也悄然发生着变化,从最早的20世纪八十年代较为单一的传统工作模式到“以学生为中心”“以学习为中心”的注重学生成长发展的学生工作模式,学生工作理念正逐步实现从管理到管理服务并重到服务的转变。今天,学生工作面临的对象是一个在移动互联网时代成长起来的群体,网络已经成为他们生活的一部分,如网络阅读、网络学习、网络购物、网络娱乐等,他们已经成为网络文化形成参与的主体,且呈现出个性化发展的特征。面对这样一个青年大学生群体,靠传统的随机抽样或经验去了解他们的工作模式已失去了优势,一种新的依托大数据技术开展学生工作的模式应运而生。

1.3 建设目标

在大数据时代,教育政策的制定不再是简单的经验模仿,更不是政策制定者以自己有限的理解、假想、推测来取代全面的调查、论证和科学的判断,而是强调更精细化地捕捉各个层面的变化数据,以及由数据展现的复杂相关与因果 关系,将教育治理与政策决策带来的危机化为机遇。

在管理决策方面 , 学工大数据不论是在帮助决策者更为清晰地了解现状,及时掌握更为全面、更有价值的信息方面,还是在制定、实施、调整具体的学生管理政策过程中,都具有举足轻重的作用。

本项目的建设将对重点围绕学生管理工作需求,采集学生在学校期间的学习、生活、作息、消费、运动、图书借阅等多位维度的数据,包含数据采集、数据清洗、数据治理、数据挖掘、数据分析、数据管理和服务的全方位大数据管理平为每个学生进行精准画像,这样让学生管理这对管理对象能够深入的了解,便于为每个学生提供精准化和个性化的服务,同时实现之前从后置性应急管理转变为前置性预警引导等服务,促进教学管理改革,提高对学校整体状况的把控,为领导提供数据支持和决策参考。

实现精细化管理到精准化服务的模式转变,学生工作事无巨细,涉及学生成长的方方面面,在大数据时代,在工作模式和方法上,会对学生工作进行管理上的变革,运用大数据技术将学生工作从精细化管理转向精准化服务。学生工作精准化服务主要体现在两方面:一是学生工作者要掌握学生精准特征。青年大学生,作为年轻的成人,他们思维活跃、个性独立,呈现出思想多元化、需求多样化的特征,再加上大学生面临着前所未有的全球化、国际化、互联互通、复杂多变的社会环境,大学生的学习行为、生活习惯、思维模式、价值观念都发生了深刻的变化,成长过程中也会碰到诸多现实困惑,这就要求学生工作者利用大数据的技术全面精准地了解学生的特点和需求。二是为学生提供私人定制的成长服务。每个学生都是独立个体,因其教育背景、生源地、家庭状况等的差异性,会导致不同个体或群体的需求,采用团体辅导、个体辅导、朋辈辅导等方式为学生提供精准化服务。当然,学生工作者重在“辅”和“导”,要得到学生的配合和支持,需要他们主动提供自己的各类数据,与学生工作者一起诊断,认知自己,进而实现自我管理、自我成长。

学工大数据作为高校的大数据服务平台和高校智慧校园的一个子集,将为未来的高校大数据服务平台和智慧校园提供丰富的数据源和基础。

2 建设方案

2.1 总体架构

2.1.1 数据采集和清洗

数据源:包括的高校的业务系统(学工、人事、财务、教务、一卡通、科研、后勤、公寓、)等结构化数据、硬件的设备数据(防火墙设备的日志、上网行为审计的学生上网相关数据、以及音视频、无线WIFI)等非结构化数据、互联网的数据(智联、前程无忧等招聘网站的岗位招聘信息)半结构化数据。

学生业务系统数据调研情况表

数据采集层:

1、 针对结构化数据,采用业界稳定成熟的Sqoop工具。Sqoop是一款强大的开源的工具,主要用于在Hive、Hbase与传统的关系数据库间进行数据的传递。可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中,在项目实施过程中使用频率最高;

2、 针对非结构化数据,采用业务稳定成熟的Flume(一个分布式、高可靠和高可用的海量日志聚合系统,支持从各类数据发送方采集数据,同时也提供对数据的简单处理里能,并可以将处理后的数据定制化地写入各种数据接收方) kafka(是一个分布式的、可分区的、多副本的实时消息发布和订阅系统,提供可扩展、高吞吐、低延迟、高可靠的消息分发服务),这个主要实现对智能设备和软件系统产生的日志信息这类型数据,另外针对各种文件类型的数据,例如word文档、视频、图片等等。采用http、ftp等协议,这类数据采集完成后直接将数据存储到HDFS中。

3、 针对半结构化数据,主要使用采用爬虫系统、kafka消息队列系统、spark数据解析和HDFS数据存储(可以选择使用Elasticsearch)来配合完成。

数据预处理:采集到大数据平台的数据由于原有系统设计约束不健全或是业务人员录入等原因造成数据可能存在缺失、噪声、重复、错误等问题,需要对于存储到平台中数据需要做预处理(清洗、集成(数据往往分布在不同的数据源中,数据集成就是将来自多个数据源的数据整合成一致的数据存储中的过程)),这部分工作需要业务部门的人员配合梳理,同时还需要对之前分散的数据按照前端应用分析集成面向主题数据,建立针对应用的主题数据库(采用MYSQL的分布式架构MYCAT部署和存储数据)。

1、 对于缺失值:采用人工填写替换(将缺失的属性值用同一个常量替换)、逻辑补值(例如根据身份证号识别出生年月日、出生地等信息)、业务系统填写(从其他业务系统中找出响应的数值)、以业务知识或经验推测、重新提取(如果某些指标非常重要又缺失率高、那就需要和业务人员了解和沟通,是否通过其他渠道可以取到相关数据)、放弃(对于缺失维度较大的数据,采取放弃的做法);

2、 重复数据:采用时间(数据录入的时间先后顺序取舍)、人工删除、业务逻辑去重;

3、 错误数据:不合理值修正(例如学生的年龄200岁、学生的成绩异常1000分,必须指定在某个区间内)、格式错误修正(包括时间、日期、数值、全半角等显示格式不一致,指定统一的格式进行转换)、前后文矛盾修正(例如学生的身份证号是1101031980XXXXXXXX,然后年龄填18岁)、人工修正。

数据标准:为确保实现高校数据的集成和共享和实现校本数据的积累,重点参照教育部出台的《高等学校管理信息标准》“学生管理数据子集”中的规范,结合学校实际情况,建立大学生基础信息编码规范和数据子集规范,统一学生编码,确保学生的编码唯一;统一部门编码,保证部门编码的唯一;统一所有业务系统的数据编码,保证业务数据的准确;同时制订编码和数据的管理、更新、维护规范。

数据质量:数据质量监控实现数据质量的自动检查、监控、报告等功能,包括数据质量检查规则库(包括唯一性、重复性、及时性、完整性、准确性、规范性、一致性等维度)、规则执行引擎(按照指定好的规则按时执行,例如每天、时间0:00-06:00)、数据质量报告(对于检查出的问题及时提交给用户业务部门)、报告推送等功能。核心是规则库,与业务无关的规则由技术人员独立开发,与业务相关的规则需要技术人员和业务人员共同确定检查规则,然后编写规则脚本。规则执行引擎可以定时批量执行检查规则,及时发现数据质量问题,将数据质量报告第一时间推送给业务部门和指定相关人员,便于及时纠正问题数据。

数据质量报告

2.1.2 数据存储和检索

数据存储:对于采集到平台内的数据进行统一存储,

1、 结构化数据:对于从传统关系数据库(mysql、Oracle等)采集过来的结构化数据则存放在Hive(建立在Hadoop基础上的开源数据仓库,提供类似SQL的HQL(Hive Query Language)语言对存储在Hadoop中的大规模数据进行存储、查询和分析操作)库中;

2、 非结构化数据(音视频、图片、Word这类型的文件类型的数据)存放在HDFS(Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问能力,适合用于大规模海量数据的存储)中;

3、 半结构化数据(设备的日志、WIFI、一卡通流水)则存放在HBase(是一种构建在HDFS之上的分布式、面向列的存储系统,提供海量数据存储功能,适合实时读写、随机访问超大规模数据集的应用场景)中。

数据检索:面对结构化的数据存储检索,将使用Impala标准数据检索框架对hive数据格式存放在HDFS中的数据进行高速检索,并且使用Impala的MPP查询架构对存放信息进行高速查询,同时还采用ElasticSearch分布式全文检索框架,用作对大量索引的高速检索,其中涉及到大数据分析中的语义分析功能(例如:分词器),可以对非结构化文件生成结构化索引,达到转换查询的目的。

2.1.3 分布式计算和挖掘

分布式计算:对于实时性要求较低的计算和分析,采用MapReduce分布式离线框架计算引擎(MapReduce是一种分布式计算模型。它提供了快速并行处理海量数据的能力,主要用解决海量数据的批量计算问题。MR由 Map和Reduce两个过程组成。Map过程将一个分片数据根据用户定义的Map逻辑处理后,经由MapReduce框架处理,形成输出结果,供后续Reduce过程使用。Reduce过程即将Map的结果作为输入,根据用户定义的Reduce逻辑,将数据处理并汇总,输出最后的结果。在开发过程中,用户只需实现map()和reduce()两个函数,即可实现分布式计算。);

对于实时性要求较高的应用类计算和分析,采用Spark基于内存的迭代式运算(Spark是基于内存计算的的大数据分布式计算框架。它是基于MapReduce算法实现的分布式计算平台,具有MapReduce所有优点。不同于MapReduce的是,Spark计算任务的中间结果和最终结果都可以保存在内存中,从而计算过程不再读写分布式文件系统。因此,Spark更加适用于数据挖掘与机器学习等需要迭代的MapReduce算法),适合于例如对一卡通数据的分析和各类食堂、图书馆、洗澡堂等推荐功能应用场景。

算法引擎:采用Apache Mahout(是个可扩展的机器学习和数据挖掘库)内常见的需要用到的功能算法有时序分析、主成分分析、关联和推荐、、统计、分类、聚类、回归、特征工程、判别、信念网络、图计算等算法;

运维监控:对大数据环境系统的分布式组件、硬件资源进行实时监控和运维管理,采用Cloudera Manager组件,是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率

(1)管理:对集群进行管理,如添加、删除节点等操作。

(2)监控:监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控。

(3)诊断:对集群出现的问题进行诊断,对出现的问题给出建议解决方案。

(4)集成:对hadoop的多组件进行整合。

其他服务组件:包括分布式协调服务采用ZooKeeper(提供分布式、高可用性的协调服务,帮助系统避免单点故障,建立可靠的应用服务)组件对Hive、HBase、HDFS中的master组件功能提供HA功能,工作流调度引擎采用oozie工具,实现大数据环境下个各类资源之间的调度功能,资源调度则采用YARN(可以为各类应用程序进行资源管理和调度),实时对分布式环境下的CPU、内存、硬盘、网络等资源进行监控,按照前端应用的需求动态分配这些资源。

2.2 基础支撑平台

大数据底层基础支持平台统一采用VMware的虚拟化软件来构建整体云计算架构,基础支撑平台虚拟化是实现业务虚拟化的基础和关键,上层的应用支撑和业务服务都要依赖与基础架构平台,以满足资源可靠性、可用性及可服务性需求。目前阶段部署和实施,满足的当前的业务应用,后期再逐步的完善功能。

基础支撑平台进行虚拟化设计后,可将学校的服务器、存储、网络等硬件层设备形成计算资源池、存储资源池和网络资源池。在服务器虚拟化的支撑下,为现阶段运行、未来扩建的各应用系统提供系统级高可用、容错、系统在线迁移、存储在线迁移、资源动态负载均衡、虚拟机自动备份等功能,同时借助云资源管理服务,资源池在不同组织间的动态调配等能力。

2.2.1 虚拟资源需求

运行大数据平台共需15台VM,每台VM的配置如下,分别用于安装和部署如下功能组件:

2.2.2 物理服务器

配置4台物理服务器,作业虚拟化的计算和存储资源池,每台配置如下:CPU:2E5-2600系统 (2.5GHz/12c);内存:192GB DDR4;存储:71.2TB SAS硬盘;RAID:1GB缓存,支持1/0/5/6;网卡:四千兆,双端口SFP 万兆网卡 2个万兆光模块;

计算资源:21284=768核>280核

内存资源:1924=768GB>560GB

存储资源:612004/1000≈29TB>27TB

2.2.3 网络资源

1、建议部署Hadoop组件(HDFS\HIVE\HBASE\YRAN\ZK等)的每台VM配置双千兆网卡,有条件最好是配置万兆网路或是链路聚合功能,保障一条网络链路出现故障后,网络任可正常服务和性能要求。

2、对于前端的WEB服务器(部署HA集群),建议每台VM配置单千兆网卡即可;

3、大数据环境系统所有VM建议都在一个网段。

大数据平台网络拓扑图

2.2.4 存储资源

存储资源如果有条件,可以采用单独磁盘阵列,或是采用服务器内的硬盘(可以采用SSD(作为缓存) HDD(数据容量)混合模式)作为存储的资源。

2.3 建设效果

2.3.1 精准画像

所谓用户画像,即通过多维的数据整体描述用户的特征,那么学生的画像就是通过采集学生在校期间的学习、生活、运动、作息、上网等多个维度的数据量化后,给每个学生都赋上特征属性标签(学生的作息规律、努力程度、经济情况、社交关系等),进行全方位的分析,可以用于揭示学生在校学习、成长和生活轨迹,从而为学校针对学生进行个性化和精准化的管理和引导提供重要依据。

2.3.2 社交网络

社交网络的构建是通过分析学生之间校园行为轨迹相似性来实现的,主要是通过统计学生在地点共现(短时间内出现在同一地点,例如食堂、图书馆、澡堂等,通过WIFI和一卡通、门禁等数据的采集)的频率,也就是说通过采集学生之间在某个时间点内同时出现的概率,概率越高,就认为是朋友关系,类似于微信的朋友圈等,分析共现的显著性。同时通过大数据的挖掘与分析,给不同个体赋上独特属性标签,如专业、性别、民族等,并以此分析出其个性化的社交需求,对其社交圈进行刻画。

可以构建每个学生在班级、年级、院系的社交网络关系图,基于个人的社交网络构建全校学生的设计网络关系图,越是处于中心人员,人际交往和社交关系比较好,越是边缘或是连接点很少的,人际交往相对会差一些,用于发现校园内孤独人群、进行心里健康辅导、以及一些重点人群监控等,同时可以指定相应的社交关系网络推荐或是信息推送服务等,例如可以为学生匹配和推荐行为习惯和兴趣爱好相识的个体建立社交关系等,更好地服务于学生个体的社会交往需要。

2.3.3 成绩预警

高校学生成绩特别好、特别差和成绩突变的学生是教育者最关心的人群,那么影响学生成绩的因素除了第一课堂(学习成绩、到课率、准点率、基础知识掌握情况),还有第二课堂(学生参加活动、奖惩情况)、经济消费、个人信息、生活规律和上网等几个方面,针对成绩预警,可以综合这几个维度进行全方位分析,提示教育者及早发现问题并进行干预,尽可能避免挂科问题。

1、基础知识相关性:基于矩阵分解的降维技术,通过分析课程之间在基础知识上的相关性来进行挂科预测。例如某学生在第一学年课程中修高等数学1成绩不好挂科了,那么当他在修高等数学2的时候,系统就会提醒该学生有可能挂科;

2、基于学生努力程度:通过用学生在校的打水、出入图书馆、出入自习室的次数以及图书借阅情况(例如成绩好的学生借阅的都是专业方向的读物,而成绩差的同学喜欢借阅诸如小说的各类课外读物)综合来度量其努力程度,可以反映学生上自习或者上课的频率,间接反映了学生花在学习上的时间。因而,去教学楼打水次数高的学生、频繁去图书馆的同学成绩较好。

3、基于学生的行为:选用学生上课监控数据,准点率,出勤率、努力程度、作息、上网是否健康,并结合上学期成绩,做加权求和,目的在于反应学生本学期的学习基础与学习态度,评价学生学习是否健康,公式如下所示:

f(成绩(包含德育成绩))

其中f(x)为归一化函数。再根据学生饮食是否健康。良好合理的健康饮食习惯是身体健康的保障;不良的饮食习惯则会导致人体正常的生理功能紊乱而感染疾病,严重时甚至会影响正常工作学习生活。因此饮食要按照科学的比例进行,公式如下:

饮食指数=(2×f(p_m) 2×f(t_d) f(S) f(p_n))/6

其中f(x)为归一化函数,p_m,t_d,S,p_n分别为早餐评价,用餐标准差评价,消费差评价,宵夜评价。

还有作息时间是否规律、上网时长是否合理、准点率和出勤率是否正常以及历史学科成绩等分析,最终形成学生学业成绩分析结果。这个算法背后的思想是通过分析学生的作息时间、行为轨迹、上课情况等各事物间的相关性来进行成绩预测,例如:作息时间规律、出勤率高、去图书馆较频繁、按时吃早餐等的同学成绩较好。

2.3.4 精准资助

准确识别扶助对象是实施“精准资助”管理服务的前提,客观、动态和多维度大数据整合库,是实施“精准资助”的基础。对贫困生判定的影响因子主要包括:(1)家庭基本信息,包括学生家庭成员组成、家庭成员信息、成员学历、家庭年收入、负债金额等基本家庭信息。(2)历史资助信息,学生以往获得的资助信息(是否获得资助、资助金额以及经济困难情况)(3)一卡通(食堂、超市、医院、开水室、自助打印、电费、洗衣房、浴室等)消费数据,包括一卡通平均单次消费金额、单次充值金额及充值间隔、月消费总额、逐月消费变化趋势、消费时间段规律等。(4)消费趋势,即获得资助后消费习惯和轨迹改变的数据信息,如在获得资助之后出现大额消费的数据信息。(5)调查问卷,收集来自于辅导员及周围同学日常评价并转换为量化数据。通过对以上数据的收集和处理分析,基于大数据分析的基础上,建立精准资助模型:

精准资助模型

精准资助主要提供一下两方面的功能:

一是识别虚假贫困生,通过大数据综合分析学生的各类消费数据,能够有效识别家庭经济情况较好的学生申报贫困生名额冒领国家资助的现象,对于这类学生取消其资助资格;

二是发现潜在贫困生,对于一些贫困学生由于自尊心较强等因素,往往不会主动申请资助,这样就使得这类学生难以通过传统的方式来被学校管理这发现。现在通过精准资助识别系统,能迅速地发现此类学生,并可以采取发放隐性补助的方式进行帮扶(例如每月定时向其一卡通内存入一定数额资金),同时,根据对贫困生的等级(一般、严重、特别),实施动态补助等方式。

很好地帮助困难资助管理工作者对学生资助信息实施动态管理。通过以上流程构建起数据收集、存储、分析和数据挖掘为一体的大数据精准筛选、甄别和定位系统,客观公正且及时、动态和准确地识别校园亟待资助和扶助对象。

3 核心组件

1、HDFS:是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。

2、MapReduce:是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。

3、Hive:是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。hive类似CloudBase,基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据 的汇总,即席查询简单化。

4、HBase:是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(Google File System)提供的分布式数据存储一样,它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。

5、ZooKeeper:是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

作者:陈星星,具有10年IT从业经验,负责云数据中心平台架构规划和设计、大数据平台的规划、设计。

(0)

相关推荐