ICCV 2019 | 华科提出对称性约束的校正网络ScRN,显著改进场景文本识别
导读:这篇文章前天发布过,但其中有部分表述不甚准确,今天已将内容纠正,重发一遍,后续会把前天发的文章删除,保留本文以供参考。
今天跟大家分享一篇今天刚出的论文Symmetry-constrained Rectification Network for Scene Text Recognition,作者将文本的对称性约束引入到文本校正网络中,显著提高了场景文本识别的精度。
该文作者信息:
作者分别来自华中科技大学、北京大学、牛津大学、旷视科技,出自华科白翔老师组。
目前场景文本识别,如何处理形状不规则的扭曲文本成为研究的重点,这在实际的应用中是常见的情况。
通常的做法是对文本进行校正,其中STN(spatial transform network)是使用比较多的技术,它以一种弱监督的方式预测文本校正控制点(边沿点),但在现实中扭曲较为严重的文本往往不能得到较为理想的效果。
下图为STN与该文提出的ScRN算法在校正同一幅图像时的比较结果:
因为ScRN加入了文本的对称性信息,能够获得更好的控制点对,进而取得更好的校正效果。
算法流程
下图展示了该文构建的算法的主要流程:
主要分为骨干网模块、文本校正模块、文本识别模块。
扭曲文本经过骨干网后,校正模块预测其多个几何属性,并据此计算校正所需控制点,然后进行文本扭曲校正,将校正后的文本送入识别模块,得到识别结果。
值得注意的是,这是一个端到端场景文本识别流程。
核心思想
那么到底什么是对称性约束的校正网络呢?
弄清楚下面这幅图,就完全理解了本文的核心思想。
上图中,每一个四边形代表一个字符,中心点为ci,字符开始的中心点Chead和结束的中心点Ctail与每个字符的中心点,组成字符中心点连线,每个字符高度的一半定义为其尺度Si,定义字符方向为字符上下边中心点连线与水平线的夹角,定义文本方向为每个字符中心点与下一个字符中心点连线与水平方向夹角。
而作者的目的意即通过校正模块预测上述文本的几何属性,而这些几何属性可以很方便地计算得到更好的控制点。
上述几何属性在训练时,需要数据集有字符级的标注,获取有这些标注的真实数据,代价是比较高的。但好在业界已有多种成熟的数据合成方法,可以轻松获得海量级这样的样本。
下图展示了,获得上述文本几何属性后,校正的过程,
注意图中控制点生成环节,在预测得到中心点和字符大小、文本方向、字符方向后,可以较为容易地获得对称的控制点对。
下图是作者使用的识别模块,使用了一个特别轻量的子网络(这不是本文的重点)。
训练时将校正模块的损失和识别模块的损失一起考虑,如下公式:
实验结果
下图为作者使用ScRN文本校正的例子:
可见,在一些难度较大的扭曲文本例子上,也获得了较好的结果。
作者在多个文本识别数据集上与去掉校正模块的baseline和muti-loss方法进行了比较,结果如下表格:
可见除了在IC03数据集,其他数据集上都明显获得了精度提升。
与另一种文本校正方法STN的实验比较结果:
可以看到ScRN在所有数据集上都得到了稳定的性能提升,特别是在非规则文字上,带来了显著的提升。
这是将本文提出的ScRN文本识别方法与现有state-of-the-art方法的比较结果:
该文提出的方法,在多个数据集上取得了最好的结果,其他数据集上也是接近最好的结果。
该文提出的校正算法仅使用两层的卷积层,时空代价极小,可以替代STN方法,显著提升文本校正的结果。
论文地址:
https://arxiv.org/pdf/1908.01957.pdf
目前还未发现该文有开源代码。
更多阅读:
OpenCV深度学习文本检测示例程序(EAST text detector)
OCR技术交流群