中国古籍离家百年被AI找回过去,达摩院已...

过去,达摩院已经沉淀了完整的OCR技术能力,但主要用于解决现代场景中的文字识别需求,而古籍识别与现代场景的文字识别存在巨大差异,在现代场景下识别准确率超过99%的算法,应用到古籍识别上识别率不足40%。为此,达摩院用两年时间研发了汉典重光古籍识别系统,在首批数字化的20万页古籍上,达到了97.5%的识别准确率,大大降低了对录入人员的专业要求。
新识别系统的搭建主要分两步进行。

第一步是聚类数据的生产识别。首先进行全书检测,把古籍正文中的每个字都抠出来,作为单独的一张图,定位所有单字所在位置。其次是聚类,一本古籍总字数可能有10万字,但其中有很多字是重复的,比如“之、乎、者、也”,聚类即让机器自动把字形笔画一致的字归为一类,接着再由人工进行标注。

之后扩充样本量,使用字体迁移方法来使合成数据。机器自动为每个字合成几个新的样本,确保单字样本量达到10个,获得足够数据训练少样本识别模型。再用少样本分类模型重新对所有图片打标,少样本分类模型识别的图片,如果与聚类图片显示的结果一致,则表示这个字已经正确打标。如果两者不一致,则回到步骤2(聚类)继续迭代。两次迭代之后,这个模型对批量数据的识别准确率高达96%。最终,全书只剩4%的文字需要人工标注。

第二步,主动学习数据生产识别。达摩团队用“基于特征匹配的单字识别主动学习算法”,让机器自己去寻找这些未被识别或识别不好的字,再交给人工团队打标,大大降低了人工成本。随着今后数字化规模的扩增,系统的识别准确率和识别效率还将不断提升。

(0)

相关推荐