大数据与档案的关系
自从大数据的理念提出后,我国档案部门迅速掀起了研究大数据的热潮,大数据、档案信息、大数据档案等概念在学术界反复地出现,那么到底什么是大数据,大数据与档案之间有怎样的关系,是我们研究大数据必须首先弄懂的一个问题。
1、什么是大数据
大数据并非是一个确切的概念,单从字面上来讲,表示数据量的庞大,维基百科对大数据的定义比较直接:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。牛津大学网络学院互联网研究所治理与监管专业教授维克托·迈克-舍恩伯格认为,大数据是人们获得新的知识、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法[1]。还有的学者用大数据的特征来阐释定义,比较有代表性的是3V观点,即大数据是具有规模性(volume)、多样性(variety)以及高速性(velocity)的数据。笔者认为,大数据的概念应定义为记录人类社会活动的、具有规模效应的数据集合。
2、大数据与档案的关系
《档案法》规定:档案是指过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图表、声像等不同形式的历史记录。单从档案的定义来看,除电子档案外,其他载体形式的档案与大数据没有任何关系,只有档案记录的信息可以称之为数据。从档案的特征来分析,档案具有社会性、历史性、确定性及原始记录性。而大数据也具有类似的特征,大数据也是人类社会活动的原始记录,其内容也具有确定性,且其记录的内容只反映事物已经完成的状态,同样具有原始记录性。因此,档案与大数据的关系仅是具有相似的特征,大数据是具有鲜明档案特性的数据集合。但是,从数据的保存价值来讲,有些数据集合对国家和社会没有永久的保存价值,不需要永久保存。真正与大数据有直接联系的,只有电子档案一种形式,电子档案与大数据之间是种概念与属概念的关系。
3、大数据由哪个机构管理
在面对迅速增长的数据量,美国联邦政府设置了首席信息官(CIO)岗位,专门负责数据的采集、发布与管理工作,且于2009年推出了开放数据平台DATA.GOV,为未来数据管理建立了较为科学的管理体制。就我国的情况来看,可以在《政府信息公开条例》的基础上,继续发挥国家综合档案馆的作用,赋予图书馆或档案馆采集、管理、发布数据的职责,这样既可以充分发挥图书、档案信息化工作平台的作用,避免信息化重复建设,又可以发挥图书馆、档案馆信息专业人才的集聚优势,为应对大数据时代作好准备。
宝葫芦集团组织学习,通过档案云平台海量数据的统计分析,挖掘数据后面隐藏的规律,为管理者提供决策和依据