骆耀军：数字人文研究与古籍数字化（麦吉尔大学学习速记六） / 开普饭

前天记流水账：

1.动笔写“租子”，半途而废。

2.裁剪扫描的书影。

3.明天MQWW例会，提前录了会集子。

4.获悉DH 2017会议。

胆子还没肥到如胡适先生那样敢把“打牌”的事也写上。解释一下，“DH”是指“Digital Humanities”，大陆一般译成“数字人文”（台湾地区称“数位人文”），这天得知了“2017年数字人文研究年会”将要在学校召开的信息；“MQWW”是“明清妇女著作”数据库的简称，每周要开一次小组例会，而我习惯在前一天录入下自己负责的诗文集。书影是裁剪好了，只是“租子”没交成。

“2017年数字人文研究年会”网页截图

现在的这篇速记，就是“租子”。先前曾要求自己半个月写一篇不是论文的文章，其实是害怕被“八股”论文磨得没了灵性。后来幸获导师垂爱，试着发在了高大上的“古代小说网”公众号上，心里一半是受宠若惊，另一半是诚惶诚恐。

以往在学校时，见导师前若没上交点这些个日子里写的文字，是不敢去的；等见面了，下一个要交付文字的日子又确定了。所以，每次见老师时我脑海中总有康有为“一锥书”的阴影。后来就戏称这是读书时的“租子”，不过，还可以愉快地玩耍的是，反正认真写点，不论好坏，老师都会细心地批阅，挨骂的时候不多。现在距离远了，就变成没附上点文字都不好意思给老师发封邮件。

“明清妇女著作”数据库检索页面截图

上上篇就郁结着要介绍下“明清妇女著作”数据库（MQWW）了。碰巧这个月哈佛大学的包弼德老师又跑到大陆（到南大参加“数字人文：大数据时代学术前沿与探索”会议）继续“贩卖”（其实是免费的）他的“中国历代人物传记资料库”（CBDB），王兆鹏老师也将到台湾地区推广“唐宋文学编年地图”，再加上得知的“DH 2017”会议信息和新近看得眼睛生茧的“书影”，于是就干脆把这些与“数字人文研究”相关的学术动态，放在一篇速记里“混炖”好了。

“唐代文学编年地图”讲座海报（来源于脸书）

“DH 2017”会议是国际数字人文组织联盟（The Alliance of Digital Humanities Organizations，ADHO）的首次年会。这几年海内外的数字化机构都在争当“弄潮儿”，以公开善本、免费获取等形式让各自家里的“干货”走到太阳底下来。

现今除了图书馆（比如国家图书馆、哈佛燕京图书馆）、博物馆公布的数字化古籍外，谷歌图书（Google Books）、Hathi Trust数字图书馆（Hathi Trust Digital Library）及中国哲学书电子化计划（Chinese Text Project）是三个影响比较大的、自己知道的开放性数字资源了（如“古腾堡计划”Project Gutenberg发布的数字化古籍都是纯文本的，而且中文古籍很少，故不列入）。

Hathi Trust上公开的《六十种曲》截图

在海外，你可能会对“时间，就是用来浪费的”这句话体会得刻骨铭心。一方面，着急、追赶并不是西方人的生活和精神状态，另一方面，他们的确也没法和地大物博的中国相比，人多真的是可以力量大的。

MQWW、CBDB等项目一做就是十几年甚至几十年，负责的老师不忘“初心”、坚持不懈是首要因素，但也可能是受限于人力不够的无奈选择。相对而言，国内的许多大型数字化项目，常常就是“一锤子买卖”，要么火线上马却永无出头之日，要么冷不丁结项却期望它就此成为“经典”。这就好比给你生了个“娃”，生下来了就完事了，从不管它是否先天不足或后天会长成歪瓜裂枣。面对那些数据库里永远错误的文字，显然非常头疼，而且还不提供纠正的机会。

国外的数据库建设，在战线上拉得比较长，但关键是，人家逐步开源、持续更新，属于细水长流型，始终坚持走开发与利用“相长”的路子，这一点很值得我们学习。他们没想着一步就能到位，真正是从一开始就把它当成一项学术事业来做。MQWW、CBDB等走的就是这样的路子，对于二者的使用和检索，各自的网页都提供了中文语言选择，这里就不多介绍了。

“明清妇女著作”数据库单机版“诗人”列表截图

想要补充的是，MQWW和CBDB都提供了Access单机版，并且二者的数据实现了一定程度的联合。CBDB的单机版做了详细的说明书和视频教程，我在学习Access的“查询”（Query）结构时，就是拿CBDB来练手的；MQWW则在网页的“下载”栏里获取，安装起来非常简便。

另外，MQWW在“概述”栏里给出了“收藏书目”列表，这是已公开发布的269种女性诗文集目录（目前数据库后台收录的总目是417种）。好几次在南大古籍部看到硕士生们在翻阅大部头的《清代闺秀集丛刊》，如果感兴趣的话，对比下MQWW与丛刊收录的相同或不同诗文集版本，肯定可以发现不少意外的惊喜。

“中国历代人物传记资料库”单机版首页截图

平时在录入古籍书影之余，没事也会闲逛海内外图书馆公开的数字化资源。对比下来，最强烈的感受就是，国内扫描的书影老喜欢乱点“朱砂痣”——在书叶正中间添上个大大的水印。前不久国图联合六七家机构发布数字化古籍资源，感觉他们个个都沾染上了国图喜欢宣示“版权”的习气，在书影正中间毫不手软地贴上个刺眼的Logo（印象里中山大学图书馆公开的书影还是比较讲良心的）。

其实国图是可以把馆藏权压缩成一小行的，在提供给MQWW的所有书影中，馆藏标志都只是页脚的一小行字。不知道为什么国内网站公布时，就那般不心甘情愿给人好好看，以前说纸质的善本触摸多了会坏，都数字化了也还是百般为难。MQWW里所有的小水印书影都是可以下载的，具体见下面这张自己正录入的《消愁集》书叶。

“明清妇女著作”数据库里《消愁集》内封书影

听说大都会艺术博物馆、台北故宫博物馆等都公开分辨率为300dpi的图像以供免费使用了，人家公告里说：“故宫认为国宝不应只是在博物馆内冰冷的文物，而应是全民共享的温暖疗愈物，同时也是可以让人民致富的宝物”。

固然“国宝”二字不能简单换成“善本”，全本的中文古籍有其独特性，但既然都扫描了，对那些还有心思去翻翻“故纸”的人，水印缩小点也失为纯粹之研究者提供点便利吧？巴伐利亚国家图书馆（Bavarian State Library）公布的中文古籍，更是干脆连自家的水印都不添。

巴伐利亚国家图书馆公开的《玉海》截图

看着高清而干净的书影，有时候是很享受的事情，那方方正正的宋体字，隔着屏幕都可以闻到墨香。MQMM里从国图获得的书影，都是扫描得比较标准、雅洁的。除了最早的那批集子，即从哈佛燕京图书馆处拿来的，不知道当时他们出于何种考虑，一致把黄色书纸“反白”，看着有点刺眼。不过哈佛HOLLIS系统里还是有很多电子书保持着“原生态”的。

哈佛HOLLIS公开的《世说新语补》截图

免费提供高清小水印的书影，是MQWW一个很突出的特色。然而，或许起初人手较少，MQWW并非对明清女性诗文集进行全文数字化。数据库以丰富的原文图像为基础，重在构建起诗题、词题、主要作者及其他作者之间的内在关联，以便检索明清女性的婚姻状态、地域分布及家庭社会关系等资料。

这个数据库结构感觉就和CBDB很像了，不同的是CBDB并不提供原文书影。而CBDB与一般的全文数据库的优势，也在于它在一开始数字化文献时，是把所有的人物传记资料及关系图谱按不同类别进行碎片化存储，然后搭建起一个可供分析运算的内在逻辑。

个人觉得数据文献的网状勾连，在脱离了具体文本语境后，电脑运算可能会给出人脑难以想到的发现，但也可能生拉硬扯出“风马牛不相及”的笑话。MQWW最先设计的存储结构也没考虑全文化，应该都是想打破以往那种简单地全文数字化的数据库构建模式，重点突显自身内在运算逻辑分析的优势。

我们私下里也会讨论，构建了这么清晰的数据分析逻辑，为什么不把全文数字化也一块做了呢？那样的话文献的容量和范围扩大了，再利用起已有的数据库分析结构的优势，这对展开学术研究不是有了无可限量的可能么？

“明清妇女著作”数据库工作台首页截图

就好比说，目前文献容量比较大的“中国基本古籍库”，如果在它的内部搭建一个数据运算架构，那我们现在使用它，就不可能只是简单的做全文、作者和书名检索了，如今很是火热的社会网络研究、空间地理研究等话题，简直就可以被开发得飞起。

自然又想到了“唐代文学编年地图”，它的文献基础主要是全唐诗，充其量不过三千多个诗人、五万多首诗歌，小容量文献的便利就是，我们可以很容易地对以往的唐代文学观点进一步细分、精确及验证，而且是直观可感的视觉呈现，文学和历史也因此变得更有“趣味”；不好的一面，文献就这么多，再怎么变花样，也难以超越先贤的研究，甚至提不出全新的文学问题。

假设我们是以“中国基本古籍库”的文献为分析材料，甚至再缩小点范围，明、清或民国一代的诗文容量，套叠上类似CBDB及“文学编年地图”的运算逻辑，可能都难以想象会发掘出多少新的、好玩的文学问题来。

“明清妇女著作”数据库团队探讨Access版本“查询”功能

只能期待某一天像“中国基本古籍库”这样的大文献容器开放数据一下了，毕竟一个接口号称售卖百万的数据库，应该也快收回成本了。

MQWW也意识到了自己拥有比较多的原始图像文本，不利用起来有点可惜，所以前一阵子就开始与中国哲学书电子化计划（CText）商讨合作，以便对明清女性诗文集展开全文数字化。

不过，众所周知，“中国哲学书电子化计划”和“谷歌图书”被人诟病最多的，就是它们用的是“光学字符识别”技术（Optical Character Recognition，OCR），在面对抄本、书影较不清晰或异体字较多的书叶时，出现的错误简直是目不暇接，自然在文本的可信度上大大地打了折扣。这样也是无奈，毕竟要迅速地全盘数字化，用OCR技术及其他电脑识别程序是最省力的，只好先数量后质量。

将来MQWW会在检索的书影页面加入OCR识别按钮，对有需要全文文本的研究者，至少提供了多一种选择，也方便原文图像与识别文字的对照阅读。特别要提的是，正因为MQWW要与CText合作，才知道它竟然只是个人力量做的，以往的求全责备瞬间就无从谈起了，毕竟该计划是同时提供了原文书影的，OCR识别的错误太多，碰到了需要查看的书叶，也开始顺手帮着校改一二了。

“中国哲学书电子化计划”《焦氏易林》的错字

这是一个文献载体大变革的时代，相信古籍数字化浪潮还会进一步席卷各个角落，而对应的数字化研究，也将会开拓出全新的局面。我们没必要也不可能去苛责前辈先进在古籍数字化领域做出的努力，但对当下古籍扫描中的种种病相及人为限制，应该且必须有所反思和改善。

浙江图书馆网页公开的《随园诗稿》里的大水印截图

就拿最常见的水印现象来说，北宋时期最喜欢“影影影”的大词人张先，都知道说“朱粉不深匀，闲花淡淡春”，各大图书馆扫描古籍后，公开时就不能低调点将版权印章添在书影空白处或缩小点篇幅么？像古人收藏次数较多的书画，也很少见他们把印信直接钤在字迹正上面的。

另外，随着研究的深入，研究者们已经不再满足于一个数据库仅仅是更大容量的检索文献的“类书”，如何吸取西方数字化工作的经验和优势并为我所用，或许是值得我们去探索的时候了。

美国大都会艺术博物馆网页公开下载的宋徽宗《竹禽图》

骆耀军：数字人文研究与古籍数字化（麦吉尔大学学习速记六）

相关推荐