既然这些古籍不能运回中国,能不能用数字化手段让内容回到中国?
【文/“达摩院DAMO”微信公众号】
加州大学伯克利分校的东亚图书馆很有纵深,这是全美三大东亚图书馆之一,九十万册藏书里四成都是中文书,还有不少甲骨文和拓片。中国以外,没几个图书馆有这水准。
第一次到这的李贝因此总感觉在穿越历史的“虫洞”,他小心翼翼地从泛黄的《易经》、《耕织图记》、《扶桑游记》和《四库全书》旁走过,甚至没敢发出震撼的惊叹。
马上走到会议桌时,他被人拍了一下,同行的陈力指着一个不起眼的书签说:“看,王国维先生的借书签。”陈力见多识广,比李贝淡定很多。但之前几分钟,陈力的情绪也有一次波动,只是没被发现。当时,他看到了金石大家翁方纲的手稿,“确实珍贵”。
这是2019年6月,宾主四人分别是东亚图书馆馆长周欣平、曾任国家图书馆副馆长的四川大学教授陈力、四川大学历史文化学院副院长王果和在达摩院负责学术合作的李贝。
这次会议上,他们要共同探讨并敲定一个项目,既然这些古籍不能运回中国,那能不能用数字化手段让古籍的内容回到中国。
这个项目,随后被命名为“汉典重光”。
来自伯克利的硬盘
汉典重光项目的分工非常明确——采集侧把纸质书变为影印版,数字化生产侧把影印版变为文字版,应用侧为文字版增加检索、字典和知识图谱等研学系统。东亚图书馆完成第一个环节后,四川大学将和达摩院共同完成另外两个步骤。其中,四川大学的老师将提供一切非计算层面的专业支持,达摩院的机器视觉实验室将负责全部技术层面的工作。
在达摩院,机器视觉实验室负责人仁基以使用技术术语而著称。谈起汉典重光这个项目,他会说项目的起点是“把古文字向量化”,难点和关键是算法必须要有“强表征能力”,“表征的鲁棒性不够是不行的”,他还会用“映射、纠错、可迁移性、收敛”等词汇构建语言体系,似乎完全不担心这种表达“映射”不到听众的脑海里。
所幸,他的核心听众之一——陈力对这块并不陌生。陈力研究过古籍数字化,对很多技术细节都有自己的见解。他也一直在推动古籍的数字化回归,汉典重光的公益属性和达摩院的技术能力打消了他的顾虑。“学术本就是天下之公器。”他说:“大家都没有功利考虑,合作起来就比较顺畅。”
项目启动后不久,仁基的两位手下——产品经理弈洵就和算法专家何木一起拜访了陈力。第一次见面,陈力就兴奋地描述了“汉典重光”的样子——左侧的影印版要对应右侧的文字版,要有个搜索引擎让研究者只依靠关键词找到资料,要有知识工具帮助读者了解必备常识,这都是以前的古籍数字化项目没有的功能,只有这样才能让汉典重光变成让每个人学习古籍和分享古籍的公益平台。
两个年轻人明显受到了感染,也觉得虽然数字化的高难度导致项目快不起来,但大家得弄出个样子来。不过,下调的预期还是没赶上现实——等到东亚图书馆把扫描版古籍寄过来,他们傻眼了,等待他们分析的不是几个闪存盘,而是装满整整几箱子的固态硬盘。
“茴字为什么要有四种写法”
对这个项目,何木最初是很有信心的。达摩院在这个领域起步很早,在文书等标准化的现代文字领域的识别正确率已经有99.9%。而且,伯克利寄来的数据很多,这也是利好。但看到照片的瞬间,何木就意识到自己太乐观了。
他知道古籍的载体很多,但也没想到会多到这个程度,纸、布、竹子、木头、甲骨、石碑,所有能用的载体都被古人留了字,不同载体上面的字识别起来差别非常大。
就算写在纸上,问题也没少多少。那些年代久远的纸张大多残缺不全,上面还布满斑点,而且排列非常复杂,“古人喜欢从上到下,从右到左,还非常喜欢在上面做批注”。
字迹的精美也成了负担。“隶书、楷书、草书、行书都漂亮,但也真难认。大部分字还是手写的,不但两个人写的同一个字不一样,同一个人写的同一个字也差别很大。”很多字还有不同写法,何木竟然想起了《孔乙己》:“茴香的茴字为什么要有四种写法?”
这马虎不得。陈力和王果都希望把这个项目做成标杆,首批20万页古籍成功分析后,他们才能分析东亚图书馆全部的150万页馆藏古籍,然后才能向着更多页的目标前进。
在新的古文字识别领域,团队原有的OCR(图像文字识别)的识别准确率只有40%,这显然是不够的。几个人想过寻求技术支持,结果发现较早涉足古籍识别的Google books针对的都是英文古籍,对中文也不适用。
没有前车可鉴,只能自己来了。好在何木没丢掉乐观精神:“这就像教小朋友识字,确实难,但也有简单的部分,我们就由易到难慢慢做。”
原藏于伯克利大学东亚图书馆的苏轼著《苏文忠公文集》
“Wow!Magic!”
大多数时间里,张楚珏的工作都在屏幕前完成。看到上面出现30个单字图片后,她要告诉机器哪些是一类字,哪些是挑错了。几分钟后,“机器消化好了”,再开始下一组。
他们正在尝试的办法叫做聚类——把同一个字的不同写法聚到一起,这还是这个理念首次用在古籍领域。
很多辅助性工具被创新出来支持这个理念。奕洵想到了字典,“把标注的字收集起来,相同的字就不用重复标记,同学们就能感受到算法的优化”;对传统输入法敲不出的生僻字和异体字,工程师玉虚建议直接保存图片,然后用固定符号标记,问题就解决了,图搜也就这样诞生了。
四川大学专门组织了20多个历史系学生来做标注,大三学生张楚珏就是其中之一。但这很耗人,大家慢慢就没了耐心,开始向何木抱怨算法“不灵光”。但何木知道这个过程没法省略,就像学生要学习,算法也要迭代,“只有数据够多够好,机器才能搞定”。
这是两个圈子的磨合,他们此前距离太远了。
达摩院的科学家显然不了解历史学家,只是觉得这些人说话风趣且学识渊博,何木说:“听陈老师和王老师说话,我们都会感叹人类怎么能把意思表达得这么清晰。”仁基则说:“和他们聊古籍,我们谦虚点说也是处于半文盲状态。”
历史学家也不了解人工智能。例如,大家都认为“国”和“國”是同一个字,对应的都是“国”。但研究算法的人强调,机器对图像的识别分两步:第一步是“所见即所得”,“国”和“國”在这里是两个字,必须被标记成两个字类;把它们和“国”联系起来是第二步,“一步到位对人类来说是理所当然,对算法而言简直就是不可理喻”。
但他们都有科学的态度。
仁基本就谨慎,他一直认为汉典重光不可能一蹴而就:“我们希望更多图书馆加入汉典重光这个古籍数字化平台,完成对古籍的数字化重建。但挑战还在后面,我们要往更深层次的语义理解和结构化知识构建方向发展。和字形相比,那个领域的数据更匮乏。”
陈力也是如此。他提倡古籍保护长达几十年,但一直非常谨慎地评估工作量。他认为,尽管现存古籍有20多万种,但去掉不同版本后严格意义上的古籍大约只有5万种,需要列入整理计划的大约只有一两万种,就这些,他还建议应该用二三十年的时间去完成。
技术进步有时需要这种煎熬。张楚珏只能继续枯燥的标记工作,并不时期待事情能走上正轨。直到有一天,她突然发现机器好像聪明了很多,统计表明算法识别率到这时已经到了96%。“我们只是在教电脑,但何木好像突然调高了机器智商。”她不禁脱口而出:
“Wow!Magic!”
何木、奕洵、王果、陈力讨论古文字识别中的技术问题
技术的意义
进入2021年,张楚珏已经能持续感受到进步。聚类被用起来后,算法和数据的互动进入了正循环。字类到3万再加上自适应算法的几轮迭代,算法识别正确率已经到了97.5%。
何木还是不满意。机器识别正确的97.5%中,只有1个百分点的工作还需要专家复核;另外的2.5%就算全部交给专家,人工的工作量也只有3.5%。和机器介入前相比,效率已经提升了30倍。但何木知道“专家还是决定性的”,他希望能把算法识别率的准确率提到99%,做到“机器为主,人为辅”。
但继续前进将涉及一系列技术难题。他们要确定十几万字类的分类,要确定哪些字的识别确实错误,“必须交给专家”,“单纯的统计结果在这里没多大意义。”
技术挑战不断,但大家从项目启动时就知道,这是一件非常难但是非常有意义的事情。古籍识别的技术挑战虽大,但由此积累的能力却未必有市场,大家是想通过技术让古籍活起来,用技术守护文明,用科技创造新的价值。就像陈力说的,这些古籍都有生命,“即使作者去世多年,看他的手稿还是像和他对话。”
国家图书馆曾经带给陈力很多满足,他在那里看过司马光的《资治通鉴》手稿,也看过鲁迅的《从百草园到三味书屋》手稿。“手稿上的修改能让人看到,鲁迅先生写作时的心境变化。”陈力说,古籍的数字回归将满足更多需要:“那些承载了特殊记忆的东西总会让人感到亲切,它的任何损坏都会让人伤心,古籍给每个中国人的就是这种感受。”
时间回到两年前,那场奠定汉典重光项目基础的东亚图书馆会面持续了几小时。结束时已是正午,陈力和王果却执意再去旧书市场逛逛。过去几十年,古籍获取难度太大:国内还好,阅读国外古籍往往需要列出详细计划才能申请到机会,并且一去就是半年,还要天天泡在图书馆。结果,只要有机会,他们就四处搜集旧书,这简直成了“职业病”。
在四川大学历史文化学院,王果办公室旁边有间存放各种旧材料的屋子,里面甚至有很多他们在多个渠道搜集来的六十年代的收据,这对研究那个时代的经济有不可替代的作用。从这个意义上讲,汉典重光也许确实能带来部分改变——至少以后,当我们的学者探寻这个民族最深层次的问题时,潜意识将把他们带到一个相同的目的地。
对技术而言,这就够了。