明代的灾荒:我们如何完成学术成果数据的共享和可视化 2024-07-29 19:40:46 以下视频来源于地图书 明代灾荒等级时空数据可视化 说个段子。有个朋友讲过一个故事。他还在学校时,跟着老师一起去做田野考察,对遗址开展抢救性研究。不过项目完成后,大家辛辛苦苦做了一批数据却从此束之高阁,感觉也需要赶紧抢救一下,不然这些工作在他看来就白做了。曾经的抢救性研究成果,自己也成了抢救对象,这种冷笑话绝对不是个例。实际上,在中国的文史研究中,这种情况可谓比比皆是。特别是一些没有经费出版,没有钱开发信息平台,也没有太大影响力的中小型课题,这一问题就更为突出。数据的共享需要平台,数据格式的转换需要技术处理,数据的可视化需要程序开发,这一切都说明,这些数据之所以吃灰,绝对不是因为没有老师愿意共享,而是一个涉及方方面面的系统性问题。在2020年,发现中国的志愿者在地图书人文地理知识库协作平台,组织起了一些列开放知识库协作项目。另一方面,我也一直没有忘记这些藏在学校里的存量数据。毕竟,做数据是困难的,哪怕是整合现有数据,或者依照纸质著作提取结构化数据也是困难的。直接发布一些已经结题的可公开数据,显然是一种更快捷的途径。地图书已公开发布的项目10月底,我应邀去云南大学参加第六届HGIS沙龙,当晚,和几个老师去云大附近的酒吧一条街喝酒。虽然之前大家并未谋面,最多也只是网友,但大家却志趣相投,相谈甚欢。酒过三巡后,西北大学科学史高等研究院的胡鹏老师,便表示一定要合作,因为他那里正好有一套结题不久的可公开数据,希望能够分享给更多的人。不过他不太懂信息技术,所以希望我们能够进行技术处理。明代的灾荒是一个基于方志文献的灾荒等级数据库。它基于《中国地方志集成》、《中国方志丛书》、《著名图书馆藏稀见方志丛刊》等方志丛书,国家图书馆“中华古籍资源库”、爱如生“中国方志库”、“哈佛燕京图书馆藏缮本方志书志”等网络文献资源,以及《中国三千年气象记录总集(增订本)》等资料汇编,通过对2万余条相关记录的整理分析,按照自然灾害对社会经济发展影响程度为标准,重建了全国(两京十三布政使司、内陆十八省)251个观测站的年度灾荒等级序列。数据库首页根据文献资料的记录特点和方式,这套数据遵循“人优先于物”和“群体优先于个体”的基本原则,按照“财物→个别民众→社会群体”的层次,将自然灾害的社会损害按照影响程度分为农业减产、财产损失、民生窘迫、人员伤亡、社会凋敝,以及农业丰收等五个类别。研究者通过一定标准,给每个指标以不同的赋值,进行灾荒等级分级。灾荒等级指标说明项目得到了陕西省社会科学基金项目、陕西省社科界重大理论与现实问题研究项目、教育部人文社会科学重点研究基地重大项目的资助,同时还得到了西北大学科学史高等研究院数字人文团队的支持。到了这个月,胡鹏老师正式把数据发给了我,共两个xls文件,授权地图书公开发布,他也由此成为了在地图书上发布正式学术成果数据的第一人。如果将来地图书能够实现他的目标,并被更多人所知,那么他的名字是一定要书写上我们平台的发展史的。项目发布页和我之前见过的不少学术成果数据一样,这套数据使用Excel作为统计工具。Excel可以说是最方便普通老师整理数据的工具,简单易得,功能强大。不过,Excel虽然可以管理数据表格,但数据表并不是数据库,所以在发布到地图书前,还需要设计数据库结构,转换数据格式。地图书的一大特点,就是可以根据项目特点,由用户自定义数据库结构,自动生成输入表单、分页、排序字段、筛选条件,甚至连API接口和简单的可视化都能自动实现。这里就涉及到一个问题,就是如何设计数据库结构和转换数据格式。项目的数据表结构这个技术问题颇为复杂,这里就不过多讨论。但显然人文学科的老师是很难完成的,除此外,每个地图书项目还需要设计一个封面,这个难度也不小。于是我们尝试了一个新机制,就是已结题的公开学术成果,由于不用考虑保密问题,所以交给志愿者来完成。数据结构的可视化要知道,中国发达的互联网产业,造就了一大批优秀的程序员。虽然维护Linux内核这样的工作可能还没多少人能干,但转换数据这种小事还是手到擒来的。而且,收入不错的程序员们,也迫切的希望去追求精神生活,只不过996福报和中年淘汰制让他们在追求精神富足的道路上,往往是摔得皮青脸肿。而与美术相关的设计师们,好些也处于类似的状态。于是我们组织了发现中国的志愿者参与到了这个项目。一位程序员首先研究了整套数据,然后将两个Excel文件结构化为三个数据表,并使用脚本程序转换数据。由于这套数据中涉及到的现代城市只有名称,没有地理坐标,所以还需要利用高德地图API进行地理编码转换。导入成功后,再利用地图书上一个实验性的数据分析工具,自定义数据库查询语句,以及HTML、CSS、JS代码,利用ECharts实现了一个简单的可视化效果。拿出第一版设计后,我们立即反馈给了胡鹏老师,并根据他的意见继续改进,最终形成了大家现在看到的效果。一个实验性的在线查询数据编辑代码可视化工具最终完成的可视化效果不过可惜的是,之前设计过几个封面的志愿者,却因为正被加班折磨得死去活来,所以这事只好由我亲自上阵了。设计封面需要素材,在我看来,灾荒年代吃饭是最要紧的事情,于是我到了美国大都会艺术博物馆网站上,找到了一个明朝嘉靖年间的碗。为了突出灾害的气氛,我结合大地干涸开裂的图案,把黄色的碗PS成了一个血碗,并使用了一副明朝古地图作为背景,然后把明朝皇帝的年号做成大米。在完成这些工作后,胡鹏老师也准备好了项目的文字说明,之后编辑说明文本、上传封面,再反复检查核实后即正式发布了。项目封面在发布前,还有一个重要的事情,就是数据采用什么样的授权。一直以来,国内互联网资源共享有个问题,就是缺乏规范的授权,也因此经常出现各种扯皮事件。因此,形成统一的知识共享授权标准,或者使用国际上广泛使用的知识共享协议,是一件非常有必要的事情。在这一点上,我们做了一些建议,但主要还是遵从作者本人的意见,在经过商议后,胡鹏老师最终采用了CC BY-NC-SA授权。CC BY-NC-SA协议这一授权要求使用者在使用此数据时必须署名,只能用于非商业用途,可以自由共享、修改、转换和再创作,但必须使用相同的方式共享。也就是说,利用此数据诞生的新作品也必须采用CC BY-NC-SA协议共享。最终项目在21日正式发布,现在任何人都可以自由利用这套数据了。在未来,我们还会陆续发布更多学术成果数据库,我们也希望能和更多的老师一起合作,向任何有需要的人分享数据。在明年,地图书也将陆续和国内几家数字人文科研单位开展长期合作。同时,未来我们还会允许任何用户根据数据接口在线实现各种数据可视化页面,甚至一些小功能,把平台做的更加开放。另一方面,我们也在不断探索这种志愿者模式。志愿者除了独立协作整理数据外,也可以帮助人文学科的老师在分享数据或者从事数字人文研究时,完成一些必要的技术性工作。除了组织具有多年工作经验的资深程序员外,另一个被我看好模式就是和理工类的院校合作,这既能给学生们一个不错的实践机会,也能促进跨学科综合性人才的培养。 赞 (0) 相关推荐 纪要 | 汪启明:材料与方法的拟合——从20世纪初叶汉语研究的转向谈起 汪启明:材料与方法的拟合 --从20世纪初叶汉语研究的转向谈起 王力学术讲座 · 第十三讲 编者按:2021年6月11日下午,西南交通大学特聘教授.中文系博士生导师,四川省学术和技术带头人,巴蜀方言与 ... 学习数据可视化,读哪本书比较好? 入门数据可视化的小伙伴往往都会问这样一个问题:我应该从哪里开始学起,有什么书推荐吗? 这个问题之所以普遍,是因为数据可视化是一个相当交叉的学科,既涉及数据分析,也涉及设计和编程.而这三大方向之中,每一 ... 推荐一大波不能错过的网站! 官网:www.youquhome.cn hello大家好,这里是每天爆肝搜罗各类网站的老Y. 今天继续给大家分享不错的网站,这次带来4个各种类型的小网站,相信总有一款会让你虎躯一震. 01.小鱼速度 ... Matplotlib 最具价值的50个可视化项目 背景描述 Matplotlib是Python的一个常用的科学制图模块,Matplotlib 最具价值的50个可视化项目是一份很好的学习材料,相关数据文件如下. 数据说明 一共有14个表格数据,都是cs ... 世和基因重磅学术成果:国内首个多中心前瞻性肠癌MRD大型研究数据发表 导 读 基于ctDNA的MRD监测是目前早中期肿瘤精准治疗领域的重要研究方向,该技术相比于传统的影像学和肿瘤标志物检测具有高灵敏度.便捷.低风险等优势,但目前仍缺少大型临床研究的验证证据. 中山 ... 第五届遥感考古年会暨太原明代藩王墓科技考古学术论坛会在太原召开 中国考古 中国社科院考古研究所1小时前 5月14至15日,由中国社会科学院考古研究所和山西省考古研究院联合举办的"第五届遥感考古年会暨太原明代藩王墓科技考古学术论坛会"在太原成功召 ... 参与编书算不算是学术成果 参与编书算是学术成果吗?参与编书有可能成为学术成果,具体还要看该本编书是否公开出版,或是否通过有关部门的审核认定.只有公开出版或者被有关部门审核认可的编书,才算是学术成果. 众所周知,公开出书算是学术 ... 学术成果 | 紧凑型or低密度?基于就业可达性的全球城市发展模式研究 可达性(accessibility)指的是到达目的地的难易程度.在实际应用中,通常用30分钟内能够到达的工作岗位数量来衡量可达性,因为工作岗位提供的不仅仅是就业机会,更是城市便利设施,比如超市,学校和 ... 2021丝绸之路周 | 2020丝绸之路文化遗产十大学术成果发布 6月18日,2021年丝绸之路周开幕式在中国丝绸博物馆举办,北京大学中国古代史研究中心.浙江大学历史学系联合中国丝绸博物馆共同发布2020丝绸之路文化遗产十大学术成果.2020年虽受疫情影响,但学术成 ... 标志性学术成果的质量评价 ◎对于学术研究工作,坚持学术成果的创新性和科学价值,坚持原创性.高质量学术论文的考核标准,强化代表作同行评议的规范程序,杜绝出现以论文数量"论英雄"和"以刊评文" ... 学术成果 | 我院戏剧艺术研究所副所长高音主编《中国戏剧的现代形象——欧阳予倩130周年诞辰纪念文集... 近日,欧阳予倩130周年诞辰纪念文集<中国戏剧的现代形象>由中国戏剧出版社出版,主编为中央戏剧学院戏剧艺术研究所副所长高音. 该书内容主要包括"缅怀与继承"和" ... 客观的学术成果评价缺失才是“唯帽子”、“唯论文”的根本原因 高校可谓是人才济济,但学术资源有限,给谁不给谁真的很为难.所以我们看到每年高校项目很多,但是申请的人更多,谁若拿到了国家级项目立刻就成为了"顶尖人才".当然至于成果如何,结题成果有 ... 韩建民:书刊互动与学术成果评价体系的转换 2020年11月22-24日,由上海交通大学.杭州电子科技大学.上海出版印刷高等专科学校.上海市科技期刊学会.浙江省科技期刊编辑学会主办,上海交通大学科学史与科学文化研究院.杭州电子科技大学人文艺术与 ...