骆耀军:数字人文研究与古籍数字化(麦吉尔大学学习速记六)

前天记流水账:

1.动笔写“租子”,半途而废。

2.裁剪扫描的书影。

3.明天MQWW例会,提前录了会集子。

4.获悉DH 2017会议。

胆子还没肥到如胡适先生那样敢把“打牌”的事也写上。解释一下,“DH”是指“Digital Humanities”,大陆一般译成“数字人文”(台湾地区称“数位人文”),这天得知了“2017年数字人文研究年会”将要在学校召开的信息;“MQWW”是“明清妇女著作”数据库的简称,每周要开一次小组例会,而我习惯在前一天录入下自己负责的诗文集。书影是裁剪好了,只是“租子”没交成。

“2017年数字人文研究年会”网页截图

现在的这篇速记,就是“租子”。先前曾要求自己半个月写一篇不是论文的文章,其实是害怕被“八股”论文磨得没了灵性。后来幸获导师垂爱,试着发在了高大上的“古代小说网”公众号上,心里一半是受宠若惊,另一半是诚惶诚恐。

以往在学校时,见导师前若没上交点这些个日子里写的文字,是不敢去的;等见面了,下一个要交付文字的日子又确定了。所以,每次见老师时我脑海中总有康有为“一锥书”的阴影。后来就戏称这是读书时的“租子”,不过,还可以愉快地玩耍的是,反正认真写点,不论好坏,老师都会细心地批阅,挨骂的时候不多。现在距离远了,就变成没附上点文字都不好意思给老师发封邮件。

“明清妇女著作”数据库检索页面截图

上上篇就郁结着要介绍下“明清妇女著作”数据库(MQWW)了。碰巧这个月哈佛大学的包弼德老师又跑到大陆(到南大参加“数字人文:大数据时代学术前沿与探索”会议)继续“贩卖”(其实是免费的)他的“中国历代人物传记资料库”(CBDB),王兆鹏老师也将到台湾地区推广“唐宋文学编年地图”,再加上得知的“DH 2017”会议信息和新近看得眼睛生茧的“书影”,于是就干脆把这些与“数字人文研究”相关的学术动态,放在一篇速记里“混炖”好了。

“唐代文学编年地图”讲座海报(来源于脸书)

“DH 2017”会议是国际数字人文组织联盟(The Alliance of Digital Humanities Organizations,ADHO)的首次年会。这几年海内外的数字化机构都在争当“弄潮儿”,以公开善本、免费获取等形式让各自家里的“干货”走到太阳底下来。

现今除了图书馆(比如国家图书馆、哈佛燕京图书馆)、博物馆公布的数字化古籍外,谷歌图书(Google Books)、Hathi Trust数字图书馆(Hathi Trust Digital Library)及中国哲学书电子化计划(Chinese Text Project)是三个影响比较大的、自己知道的开放性数字资源了(如“古腾堡计划”Project Gutenberg发布的数字化古籍都是纯文本的,而且中文古籍很少,故不列入)。

Hathi Trust上公开的《六十种曲》截图

在海外,你可能会对“时间,就是用来浪费的”这句话体会得刻骨铭心。一方面,着急、追赶并不是西方人的生活和精神状态,另一方面,他们的确也没法和地大物博的中国相比,人多真的是可以力量大的。

MQWW、CBDB等项目一做就是十几年甚至几十年,负责的老师不忘“初心”、坚持不懈是首要因素,但也可能是受限于人力不够的无奈选择。相对而言,国内的许多大型数字化项目,常常就是“一锤子买卖”,要么火线上马却永无出头之日,要么冷不丁结项却期望它就此成为“经典”。这就好比给你生了个“娃”,生下来了就完事了,从不管它是否先天不足或后天会长成歪瓜裂枣。面对那些数据库里永远错误的文字,显然非常头疼,而且还不提供纠正的机会。

国外的数据库建设,在战线上拉得比较长,但关键是,人家逐步开源、持续更新,属于细水长流型,始终坚持走开发与利用“相长”的路子,这一点很值得我们学习。他们没想着一步就能到位,真正是从一开始就把它当成一项学术事业来做。MQWW、CBDB等走的就是这样的路子,对于二者的使用和检索,各自的网页都提供了中文语言选择,这里就不多介绍了。

“明清妇女著作”数据库单机版“诗人”列表截图

想要补充的是,MQWW和CBDB都提供了Access单机版,并且二者的数据实现了一定程度的联合。CBDB的单机版做了详细的说明书和视频教程,我在学习Access的“查询”(Query)结构时,就是拿CBDB来练手的;MQWW则在网页的“下载”栏里获取,安装起来非常简便。

另外,MQWW在“概述”栏里给出了“收藏书目”列表,这是已公开发布的269种女性诗文集目录(目前数据库后台收录的总目是417种)。好几次在南大古籍部看到硕士生们在翻阅大部头的《清代闺秀集丛刊》,如果感兴趣的话,对比下MQWW与丛刊收录的相同或不同诗文集版本,肯定可以发现不少意外的惊喜。

“中国历代人物传记资料库”单机版首页截图

平时在录入古籍书影之余,没事也会闲逛海内外图书馆公开的数字化资源。对比下来,最强烈的感受就是,国内扫描的书影老喜欢乱点“朱砂痣”——在书叶正中间添上个大大的水印。前不久国图联合六七家机构发布数字化古籍资源,感觉他们个个都沾染上了国图喜欢宣示“版权”的习气,在书影正中间毫不手软地贴上个刺眼的Logo(印象里中山大学图书馆公开的书影还是比较讲良心的)。

其实国图是可以把馆藏权压缩成一小行的,在提供给MQWW的所有书影中,馆藏标志都只是页脚的一小行字。不知道为什么国内网站公布时,就那般不心甘情愿给人好好看,以前说纸质的善本触摸多了会坏,都数字化了也还是百般为难。MQWW里所有的小水印书影都是可以下载的,具体见下面这张自己正录入的《消愁集》书叶。

“明清妇女著作”数据库里《消愁集》内封书影

听说大都会艺术博物馆、台北故宫博物馆等都公开分辨率为300dpi的图像以供免费使用了,人家公告里说:“故宫认为国宝不应只是在博物馆内冰冷的文物,而应是全民共享的温暖疗愈物,同时也是可以让人民致富的宝物”。

固然“国宝”二字不能简单换成“善本”,全本的中文古籍有其独特性,但既然都扫描了,对那些还有心思去翻翻“故纸”的人,水印缩小点也失为纯粹之研究者提供点便利吧?巴伐利亚国家图书馆(Bavarian State Library)公布的中文古籍,更是干脆连自家的水印都不添。

巴伐利亚国家图书馆公开的《玉海》截图

看着高清而干净的书影,有时候是很享受的事情,那方方正正的宋体字,隔着屏幕都可以闻到墨香。MQMM里从国图获得的书影,都是扫描得比较标准、雅洁的。除了最早的那批集子,即从哈佛燕京图书馆处拿来的,不知道当时他们出于何种考虑,一致把黄色书纸“反白”,看着有点刺眼。不过哈佛HOLLIS系统里还是有很多电子书保持着“原生态”的。

哈佛HOLLIS公开的《世说新语补》截图

免费提供高清小水印的书影,是MQWW一个很突出的特色。然而,或许起初人手较少,MQWW并非对明清女性诗文集进行全文数字化。数据库以丰富的原文图像为基础,重在构建起诗题、词题、主要作者及其他作者之间的内在关联,以便检索明清女性的婚姻状态、地域分布及家庭社会关系等资料。

这个数据库结构感觉就和CBDB很像了,不同的是CBDB并不提供原文书影。而CBDB与一般的全文数据库的优势,也在于它在一开始数字化文献时,是把所有的人物传记资料及关系图谱按不同类别进行碎片化存储,然后搭建起一个可供分析运算的内在逻辑。

个人觉得数据文献的网状勾连,在脱离了具体文本语境后,电脑运算可能会给出人脑难以想到的发现,但也可能生拉硬扯出“风马牛不相及”的笑话。MQWW最先设计的存储结构也没考虑全文化,应该都是想打破以往那种简单地全文数字化的数据库构建模式,重点突显自身内在运算逻辑分析的优势。

我们私下里也会讨论,构建了这么清晰的数据分析逻辑,为什么不把全文数字化也一块做了呢?那样的话文献的容量和范围扩大了,再利用起已有的数据库分析结构的优势,这对展开学术研究不是有了无可限量的可能么?

“明清妇女著作”数据库工作台首页截图

就好比说,目前文献容量比较大的“中国基本古籍库”,如果在它的内部搭建一个数据运算架构,那我们现在使用它,就不可能只是简单的做全文、作者和书名检索了,如今很是火热的社会网络研究、空间地理研究等话题,简直就可以被开发得飞起。

自然又想到了“唐代文学编年地图”,它的文献基础主要是全唐诗,充其量不过三千多个诗人、五万多首诗歌,小容量文献的便利就是,我们可以很容易地对以往的唐代文学观点进一步细分、精确及验证,而且是直观可感的视觉呈现,文学和历史也因此变得更有“趣味”;不好的一面,文献就这么多,再怎么变花样,也难以超越先贤的研究,甚至提不出全新的文学问题。

假设我们是以“中国基本古籍库”的文献为分析材料,甚至再缩小点范围,明、清或民国一代的诗文容量,套叠上类似CBDB及“文学编年地图”的运算逻辑,可能都难以想象会发掘出多少新的、好玩的文学问题来。

“明清妇女著作”数据库团队探讨Access版本“查询”功能

只能期待某一天像“中国基本古籍库”这样的大文献容器开放数据一下了,毕竟一个接口号称售卖百万的数据库,应该也快收回成本了。

MQWW也意识到了自己拥有比较多的原始图像文本,不利用起来有点可惜,所以前一阵子就开始与中国哲学书电子化计划(CText)商讨合作,以便对明清女性诗文集展开全文数字化。

不过,众所周知,“中国哲学书电子化计划”和“谷歌图书”被人诟病最多的,就是它们用的是“光学字符识别”技术(Optical Character Recognition,OCR),在面对抄本、书影较不清晰或异体字较多的书叶时,出现的错误简直是目不暇接,自然在文本的可信度上大大地打了折扣。这样也是无奈,毕竟要迅速地全盘数字化,用OCR技术及其他电脑识别程序是最省力的,只好先数量后质量。

将来MQWW会在检索的书影页面加入OCR识别按钮,对有需要全文文本的研究者,至少提供了多一种选择,也方便原文图像与识别文字的对照阅读。特别要提的是,正因为MQWW要与CText合作,才知道它竟然只是个人力量做的,以往的求全责备瞬间就无从谈起了,毕竟该计划是同时提供了原文书影的,OCR识别的错误太多,碰到了需要查看的书叶,也开始顺手帮着校改一二了。

“中国哲学书电子化计划”《焦氏易林》的错字

这是一个文献载体大变革的时代,相信古籍数字化浪潮还会进一步席卷各个角落,而对应的数字化研究,也将会开拓出全新的局面。我们没必要也不可能去苛责前辈先进在古籍数字化领域做出的努力,但对当下古籍扫描中的种种病相及人为限制,应该且必须有所反思和改善。

浙江图书馆网页公开的《随园诗稿》里的大水印截图

就拿最常见的水印现象来说,北宋时期最喜欢“影影影”的大词人张先,都知道说“朱粉不深匀,闲花淡淡春”,各大图书馆扫描古籍后,公开时就不能低调点将版权印章添在书影空白处或缩小点篇幅么?像古人收藏次数较多的书画,也很少见他们把印信直接钤在字迹正上面的。

另外,随着研究的深入,研究者们已经不再满足于一个数据库仅仅是更大容量的检索文献的“类书”,如何吸取西方数字化工作的经验和优势并为我所用,或许是值得我们去探索的时候了。

美国大都会艺术博物馆网页公开下载的宋徽宗《竹禽图》

(0)

相关推荐