​龙泉寺法师研发AI自动标点:给古文加标点,效果接近人类

AI前哨站 前天

文|潘颖欣

不知道你有没有印象,此前一位长着大圆脸、招风耳,身着黄色僧袍的“贤二”机器僧,曾因呆萌的外表和 “我去问问我师父”等口头禅“霸占”了不少社交平台。在12月20日由腾讯发起的2020 Techo Park开发者大会分论坛上,也迎来了一位特殊的演讲嘉宾。和“贤二”一样,这位嘉宾——贤超法师也来自北京龙泉寺。

贤超是北京大学物理学院凝聚态物理研究所硕士,现在是北京市海淀区龙泉寺藏经办公室主任。他透露,自己之所以会关注到人工智能,和阿尔法狗战胜李世石不无关系。从那时候起,贤超开始尝试将人工智能和自己研究的OCR(识别、获取图像等文件上的文本资料)以及自动标点相结合。

贤超法师在演讲中。

“在围棋领域,人类已经一败涂地。我们中华文明非常重视文字记录,文献古籍承载了我们民族的记忆,那么我想,文献古籍会不会再次成为人类的滑铁卢?AI如此‘不讲武德’,我们人类如何应战?” 贤超说。

贤超首先介绍了自动标点技术。所谓自动标点,是指在没有人工干预的前提下,根据算法给古籍文本自动标注现代中文标点的技术,这主要是为了方便现代读者阅读。

他说,和现代标点不同,古代的标点又称句读,大体相当于只有逗号(或顿号)和句号。现代标点则分为两类,一类是标号,比如双引号、单引号、书名号等;第二类则是点号,比如句号、问号、感叹号等等……根据统计,大约每五到六个汉字就需要加一个点号,其中逗号、句号、冒号等出现频率较高。

古文标点的出现频率。

贤超指出,标点符号还具有可替代性,因为不同的人可能会有不同的标注方法,其中分号和顿号的可替代性最强,也就意味着使用的必要性最弱,反之亦然。

标点符号可替代的统计。

据他介绍,人工智能首次被应用到这个领域,只是用于自动断句,也就是给古文加句号,但贤超认为这个做法“是比较保守,比较学术性的”。后来,贤超说,自己的团队将深度学习运用到了自动标点上。

那么效果如何?贤超提到,如果是人工独立完成的标点,作品之间的相似度应该是在80%左右,相似度过高则会有抄袭的嫌疑。根据这个标准,贤超团队研发的Transformer所标注的结果和人类的标注结果“几乎已经无法区分”。

对于Transformer自动标注结果的评价。

贤超还认为,自动标点还有一定的灵活性和规范性。以“谛听谛听善思念之”这八个字为例,贤超说,人类至少有16种不同的添加标点符号方式,但自动标点只给出了六种方案,也不会“过于单一”。

自动标点的标注结果。

在讲述自动标点技术之后,贤超开始讲解超分辨率与古籍图像增强技术。他认为,如果能实现“所见即所出”,就是将屏幕上人眼所能看到的图像,“重建”到符合出版的要求,会大大促进古籍的传播和普及。

此外,这也有利于存储古籍图像。贤超介绍道,古籍图像的存储成本非常巨大,而超分辨率实际上是一个非常高效的解压技术,即使保存的是很低分辨率的图像,也可以随时重建成一个高清晰度的图像,那么“它存储起来会非常非常经济。”

针对这项技术,贤超在现场播放了几个视频来展示团队所开发的工具。从视频中可以看出,这个工具可以比较快速地获取、识别、定位图片上的古籍文本,并为其添加标点符号,甚至能将文言文和白话文进行“对齐”,从而辅助文白翻译。此外,它还具有搜索功能,并能将搜索结果按时间等分类展示。

对于未来的研究方向,贤超希望能打通“移动和桌面”。他坦言,现在这类应用主要是电脑端的,能在手机上使用的并不多。此外,他还希望打造本地化的应用,现在大多数的功能需要联网才能运行,但是很多学者对于知识产权非常敏感,并不愿意将文本放到服务器上处理。

(0)

相关推荐