文科生和理科生联手,干了一件关乎“文化香火”的大事

有时候,拿起一本经典我常忍不住感慨,这些文字是如何穿越两三千年的时空,来到我的书桌上的。这中间历经了多少天灾人祸,更重要的是今天的我们还能读懂它,并继续从中汲取力量,想一想这简直就是一个奇迹。这样的奇迹,背后是一代一代人,为接续民族文化香火,而付出的巨大牺牲。
古人说书有四劫:水火兵虫。近代以来中国处于“三千年未有之大变局”,众多古籍又面临流散海外的新问题。据不完全估计,散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。5月18日,在“汉典重光”海外古籍数字化回归发布会上,一批珍藏于加州大学伯克利分校的中文古籍善本,终于以数字化方式回归故土。

首批数字化的古籍共20万页,包含40余种珍贵宋元善本。这些善本中光宋版书就好几套,如宋刻本《後村居士集》、北宋《金粟山大藏经》写本、苏轼文集的残页,此外还有清文澜阁四库全书本《宋百家诗存四十卷》、清末第一批近代思想家王韬的稿本《瀛壖杂志》等。懂得版本学的人,不难理解这些书有多么珍贵,尤其是王韬稿本是通过这次整理才首次发现其存世的。

古籍回归,殊非易事。2019年,阿里巴巴和四川大学提出“数字化回归”设想,四川大学历史文化学院王果副院长与该院教授、中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,最后获得加州大学伯克利分校支持,达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。

古籍善本数字化回归,这是什么意思呢?就是由伯克利提供古籍的扫描图片和编目数据,阿里巴巴达摩院将其全部文字化。阿里巴巴达摩院院长张建锋表示,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,最终将成为一个开放的网络平台,供大众检索学习。
研究人文学科的人可能知道,我们的古籍有一些已经有影印本或扫描图片,在一些网络平台上也能看到其真容。但问题是这些图片只能阅读浏览,却无法以数字化的方式搜索识别。古籍数字化后,能减少研究者对真本的翻阅损坏,还会给学术研究插上翅膀。比如台湾有学者利用大数据研究《红楼梦》,通过对全书字频词频、语言习惯的分析,认为后四十回大部分都是曹雪芹本人写的。书中一些历来被认为是杜撰的药方,其实在古医书中都有原型。古籍数字化能力提高后,学术研究可能会带给我们更多的惊喜。
但这件事有多难呢?首先难在古籍卷帙浩繁,如果靠人工录入,仅一部《四库全书》就要耗尽许多人一生之力。很多人都会想到AI识别,但是中国古籍有大量的异体字、生僻字,绝大部分不仅没被现代字库收录,也几乎找不到样本供AI学习,这成了古籍数字化领域的技术瓶颈。
达摩院技术团队与四川大学专家“文理联合”,研发了一套全新的古籍识别系统,利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统,以97.5%的准确率完成对20万页古籍的整体识别。这一系统现能批量识别百本古籍,并沉淀覆盖3万多字的古籍字典。比起专家录入,这套人机交互的识别系统将效率提升了近30倍。

这件事的意义不仅在于实现海外古籍的数字化回归,这套识别系统其实更像是一种“基础设施”,将来系统更加成熟之后,国内外浩如烟海的古籍都有了数字化的可能性。比如将来在平台上输入“达摩”,古籍中所有关于达摩的记述都会被检索出来,古人皓首穷经一辈子都做不到的事,每一个普通人将都能做到。而那时候书写在古籍里的文字,也许就真的活起来了。

文明的传承,要有背诵出《尚书》的伏生、守护天一阁的范氏家族所具有的那种精神力量,也要靠文化载体的不断演进。我们的文明从刻在甲骨上,到铸在青铜器上,到镌刻在竹简、碑石上,再到书写在纸张上,总是跟随时代的发展不断进步,从不固步自封。如今时代走到了数字化的今天,如何使我们的古老文明再一次拥抱新的载体,是我们这一代人的责任。
我们常说,中华文明是古代文明中唯一一个延续至今没有中断的。对典籍近乎执着的传承,正是我们的文明绵绵不绝的强大动力。从这个角度上说,古籍数字化只是一小步尝试,但它对于绵延文化“香火”的意义,或许是划时代的。
(文/于永杰)
(0)

相关推荐