最强开源OCR!印刷体古籍文字识别超越著名商业软件ABBYY
52CV君曾经向大家推介过开源OCR文字识别软件Calamari,其使用了目前最先进的OCR技术,非常值得参考。
通过查看“我爱计算机视觉”网站(www.52cv.net)后台数据,52CV君发现,在来自搜索引擎的自然流量中,该文开源OCR文字识别软件Calamari是网站上所有单项技术博文里被阅读次数最多的(虽然当时写的文章并不详细),可见该软件的确很受欢迎。
近日,该软件的作者即来自德国维尔茨堡大学的几位学者在投稿于DHd 2019的论文《State of the Art Optical Character Recognition of 19th Century Fraktur Scripts using Open Source Engines》中再次展现了其强大能力,在19世纪印刷体古籍文字识别任务中,基于此软件Calamari和新发明的一种训练方法训练出的新模型,不仅打败了目前主流的开源软件,甚至大大好于著名的OCR商业软件ABBYY。
作者信息:
该文没有讲任何算法,作者最重要的阐述是如何利用各种语料训练模型。
下面的表格很好的反映了其使用的数据和训练的顺序。
该文要解决的问题是识别19世纪的印刷体文字,其首先使用了跨越15-20世纪的最全的各种语料训练模型,得到作者认为鲁棒性较好的预训练模型(可以理解为能用的数据都用上了),然后使用合成数据继续训练(合成数据因为可以人为生成,所以往往各种情况都有,数据分布较平衡),再然后使用19世纪的所有真实语料数据训练(这是识别的目的数据库),由于目的数据库样本分布可能不平衡,作者最后在19世纪语料数据集中每本书最多抽样50行,进行最后的训练提精,避免过拟合。
该文要识别的文本图像示例:
作者将训练得到的模型和主流的开源软件Tesseracts、OCRopus和商业软件ABBYY进行了比较,作者使用的评估数据集不再赘述,直接看看这漂亮的结果:
在大多数情况下Calamari都取得了压倒性优势!即使Calamari表现不是最好的情况,也仅仅是比商业软件ABBYY稍逊一点点。
如果你想做OCR方便的开发,不妨学习下Calamari!
值得注意的是,作者并不是说Calamari全面超越了ABBYY,只是在特定领域使用Calamari可以达到超越ABBYY的效果。在ABBYY擅长的办公自动化OCR领域,作者并没有公布有没有实验、结果如何,如果各位读者感兴趣可以试试。
思考一下作者使用的训练方法,不难总结出一些原则:
1.先追求数据大而全,再使用特定任务数据;
2.先合成数据,再真实数据;
3.真实数据抽样,模型提精训练,避免过拟合。
重点来了!
Calamari开源地址:
https://github.com/Calamari-OCR/calamari
论文下载: