把数据存进“银行”有什么用?
银行,是日常生活里必不可少的部分。
如果有一个“银行”里放的不是金钱,而是海量的“数据”,你知道这种“银行”有什么用吗?
今天我们就来给大家讲讲“科学数据银行”的那些事。
这个银行里存的“钱”:科学数据
“科学数据银行”里存的不是钱,是科学数据。
科学数据是在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。
随着人类文明发展和信息技术的变迁,科学数据可以以很多种形态出现,例如实验记录手写稿、机写纸质稿、纸质照片、电子表格、电子文本、电子图片、视频或软件代码等。
如果把科学数据类比为货币,那么科学数据存储库就是存储数据的银行。与生活中的银行不同的是:科学数据银行是支持共享、出版和开放获取的。科研人员们把各自收集整理的科学数据在数据银行进行储存和出版,而数据银行通过吸纳“数据存款”, “变小钱为大钱,变死钱为活钱”,把分散在个人和集体中的数据资源集中起来,使其更容易被发现、访问、互操作和重用。
这些“钱”有什么用?它们在科学研究的过程中的作用可不少:
对于研究人员,科学数据的透明度一定程度上决定了其学术论文等研究成果的可信度,公开共享的科学数据,将在论文投稿过程中成为期刊编辑部、同行评议专家评审的依据。论文发表后,也将有效提升其论文的可发现性和可引用性。
“把数据(《青藏高原MODIS逐日无云积雪面积数据集》DOI: 10.11922/sciencedb.55)拿出来的初衷只是想存储,想着能有一个地方帮助管理数据,没想到收到了大量包括海外用户在内的积极使用反馈,相关数据获得了数千访问量和多个平台、国家级科学数据中心转载,几年来下载量一直在科学数据存储库名列前茅。”
——中国科学院空天信息创新研究院
副研究员 邱玉宝
《青藏高原MODIS逐日无云积雪面积数据集》出版页面
对于研究领域,科学数据的共享可供其他研究人员引用或重现实验,避免不必要的重复实验操作,缩短研究周期,使得研究人员的主要精力可以集中在新的探索发现,有助于加快整个领域的研究进程。
信息科学领域数据具有良好的科学数据开放共享基础,各类算法竞赛提供基准数据集,比如视觉识别挑战大赛(ILVRC)的基准数据集ImageNet。2012年,AlexNet在该赛事基于ImageNet获得图像分类和物体识别算法的优胜,错误率比第二名低了10.8个百分点,一战成名,刺激了更多使用卷积神经网络和GPU来加速深度学习研究的出现。基准数据集的公开共享和应用,驱动相关领域研究取得重大突破和进展。
对于社会整体,科学数据的共享可减少研究人员的重复工作,节约科研资助机构的资助资源;更高透明度的科学研究,将大大增强政府和公众对于研究成果的信任感,有效推动科学研究成果对于社会经济发展等方面发挥作用。
“青藏高原铁路建设项目利用了青藏高原7个观测站长期观测得到的气象、地温、冻土等观测数据资料,在超级计算环境下构建了青藏铁路冻土路基稳定性模型,模拟分析铁路路基是否会影响下层冻土的融化或者冻土融化是否会影响铁路路基的稳定或者导致路基变形,相关科学数据发挥了非常关键的作用。”
——中国科学院西北生态环境资源研究院
研究员 张耀南
为啥要把数据存在“银行”里?
有人也许会说:既然科学数据这么有用,大家各自保存不就好了。为什么还需要有个“银行”呢?
大家知道,现实生活中的银行是随着货币经济发展而出现的。“科学数据银行”也是如此。信息技术与科学研究的交互融合引发了数据量的迅猛增长,促成了数据密集型科学发现的科研第四范式的到来,数据成为科研和创新的基础驱动力。委托专业数据存储环境进行科学数据的保存和传播,优势不止一个:
从数据安全性保障看,数据存在研究人员个人或集体手中,会因为设备损坏、人员流动、办公场所迁移等原因,带来数据的流失和遗漏。数据银行配套专业机房等基础设施保障,配备超强数据资产存储、处理及管理能力;提供专业的数据资产安保服务和备份机制,最大限度保障数据资产安全、存储与共享资产的永久可访问、可获取。
从促进数据流通看,存款可通过银行的货币兑换业务,兑换成其他国家的货币、储蓄到国际认可的储蓄卡中,在全球消费流通。把数据存储到数据银行并进行标准化出版,配备Schem.org和都柏林核心元数据标准的元数据,以及CSTR、DOI唯一数字标识,就可以实现更新更大领域的流通和转换。
从提升数据收益看,存款可委托给银行购买国债、基金等投资理财产品,以期待更大收益。数据也可通过在数据银行出版,由数据银行根据当前资源汇聚情况和热门时间,收纳到其有价值有热点的数据专题中,还可以纳入到关联推荐阅读,获得更高流量和更强学术影响力,给数据赋予更大价值。
科学数据:从“附属物”到“一等公民”
自20世纪以来,科学数据经历了不同的发展阶段。
20世纪40年代前,科学数据工作处于起步阶段,科学数据仅仅作为一般科技工作的附带或者辅助,缺乏有效组织。随着科技界对基础科学数据的交流和应用,科学数据逐步作为独特的科技领域,确立了其基础性地位。
在国际科学联合会(ICSU)组织下,1957年成立了以地球科学、空间科学和天文学数据为重点的世界数据中心(WDC) ,又于1966年成立了覆盖更广泛学科领域的国际科技数据委员会(CODATA)。90年代以来,科技界不但出现了跨学科的前沿数据领域如蛋白质、基因组等重大数据库,科学研究工作也愈加依赖专业的数据库资源。2001年CODATA创办了以科学数据为对象的电子杂志《数据科学杂志》(Data Science Journal) ,确立了科学数据成为一个新的学科领域。
《数据科学杂志》
当前,许多国际重要的学术期刊都已经制定数据开放、数据共享和数据利用的相关政策。例如传统学术期刊BMC Evolutionary Biology,PLoS One,BMJ,Science,ZooKeys等,其政策内容主要包括:(1)支撑研究论文主要研究结论的科学数据应以各种形式开放供读者查阅,以便重现研究过程,验证研究结果。(2)提交科学数据的方式主要包括将数据交给期刊存储;将数据存储在开放获取的综合性数据仓储(如Dryad)、领域数据仓储、机构知识库等;作者自存储数据;在读者提出相关数据的查阅和利用需求时,作者直接提供给读者。(3)在相应使用许可条件下,这些科学数据可以获取、传播和重复使用。(4)是否提交相应数据作为学术论文发表的重要前提之一。
当今,科研数据不再仅是学术论文的附属物,而成为了科研的基础产出和“一等公民”,具有独立的身份识别、属性描述、监护机制、溯源流程,通过信息网络可发现、可获取、可互操作和可重用(FAIR原则),并逐步支持把数据监护和共享纳入科技界认可的学术贡献体系。
目前较为成熟的数据出版模式可分为三类:作为论文辅助资料的数据发布(附属于出版物的数据发布)、以数据论文形式发布(作为出版物本身的数据出版)、独立的数据出版即在数据存储库存储发布(不依赖出版物的数据发布)。
“科学数据银行”发展如何?
目前,全球较为领先的数据存储库主要有Dryad Digital Repository,figshare,Harvard Dataverse,Open Science Framework,Zenodo,Mendeley Data等等。这些存储库全部来自美国和欧洲国家,并与国际出版知名出版商、国际DOI发布机构和国际组织展开合作,形成了强大的科学数据、开放获取的合作联盟社区。
由于国内科学数据共享工作起步相对较晚,我国在很长一段时间内都缺乏获得国际认可的科学数据库。这意味着中国的科研人员想要在国外期刊发表论文,必须将数据提交到这些国外数据存储库。这种状况就导致了我国科学研究成果的严重流失,国内学术期刊和出版机构的学术公信力和影响力难以得到有力提升。
另外,这也导致科研成果流向的严重不平衡:我国近年来崛起的科学研究力量和成果大量输出给国际社会,国内学术期刊和数据存储库却难以汲取相对等的国际科研成果。
最近,这样的情况有了改变。
这样的“数据银行”我们也有了
ScienceDB是中国科学院计算机网络信息中心自主研发的可支持中英文的科学数据存储库系统,得到了中国科学院信息化专项和国家基础学科公共科学数据中心的长期支持,面向学术期刊、科研人员提供数据在线存储、汇交管理、长期保存与获取、共享、出版和引用服务。截至目前,ScienceDB已经为《生态学报》《中国科学数据》等8本中文期刊,Science、PNAS、ESSD等14本英文期刊以及2300多位科研工作者提供科学数据存储和出版服务。
ScienceDB服务的部分期刊
近期,ScienceDB被Scientific Data、Springer Nature和AGU收录到其推荐的通用型数据存储库名单,还与FAIRsharing、re3data、OPENDOAR等国际数据存储库收录平台建立合作。总之,ScienceDB致力于提升科研数据成果的价值,帮助学术期刊、科研人员更好地管理和传播学术研究成果。
ScienceDB获得的国际认证和推荐
那么,ScienceDB能为用户提供哪些优质服务呢?