扫描式SSD用于公式检测,代码已开源

SSD是大家常见的目标检测器,在类似COCO的日常生活类物体检测,或者人脸、行人检测上都有应用,不过是否可以用于文本领域的检测呢?

今天跟大家介绍一篇新出的论文 ScanSSD: Scanning Single Shot Detector for Mathematical Formulas in PDF Document Images,美国罗彻斯特理工学院提出一种扫描式SSD(ScanSSD),仅使用视觉特征,而不使用任何文本的版面信息,进行数学公式检测。

ScanSSD训练时文档图像大小为512 * 512,在给定600 dpi的文档页图像上,SSD检测器以多尺度滑动窗口的方式定位公式,然后把检测结果合并,得到最终的整个页面的公式。

常见的学术文献中数学公式示例:

可见,既有独占一行的公式(红色区域),也有嵌入进文本的公式(蓝色区域)

在实验中,作者使用了 TFD-ICDAR2019v2 数据集(构建于GTDB扫描数学文献库),ScanSSD可以高精度检测公式里的字符,在保持高召回率情况下可以达到0.926 f-score。

数据集统计数据:

ScanSSD用于公式检测的整体算法流程:

首先对文档图像划分滑动窗口,为提高检出率,滑动窗口之间是有重叠的。对每一块得到的图像区域进行独立的SSD公式检测,然后将检测的结果拼接起来,对拼接结果汇总(Pooling),得到最终的检测结果。

速度上,对于512 * 512大小的输入图像,GTX 1080 GPU上跑的结果是 ~27 FPS 。

既然是公式检测,一个很明显的特征是公式往往横纵比较高,所以作者修改了原始的SSD中预设box的横纵比{1, 2, 3, 1/2, 1/3},可达到5、7、10。

如下图:

数据集中公式的横纵比统计:

考虑到检测包围框不一定准确,对于SSD检测结果进行了后处理,根据内部字符的连通性,外扩或者收缩包围框,如下图:

考虑到公式在文献中出现的不同情况,作者通过在有较大空白处拆分公式,在相邻文本行上合并公式,获得了很小的错误率。如下图 3 和 4 :

该文算法在作者收集的数据集上得到的检测结果:

实验结果显示,在 IOU≥0.75 时 f-score 达到 0.796,IOU≥0.5 时 f-score 达到 0.733。

作者又做了字符级数学符号检测结果的比较:

该文使用常见的SSD进行公式检测,还开源了代码,可以作为相关研究与开发人员的参考!

论文地址:

https://arxiv.org/pdf/2003.08005.pdf

代码地址:

https://github.com/MaliParag/ScanSSD

END

备注:OCR

OCR交流群

OCR、文本检测与识别、手写识别、公式识别,若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博/知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

点个[在看],就是最大的支持

(0)

相关推荐

  • GitHub 又一 OCR 神器面世!让你快速告别「复制 粘贴」!

    来自机器之心 对很多人来说,将 PDF 转换为可编辑的文本是个刚需,却苦于没有简单方法.在本文介绍的项目中,来自 K1 Digital 的高级机器学习工程师 Lucas Soares,尝试使用 OCR ...

  • CVPR 2021 论文大盘点-文本图像篇

    OpenCV中文网 OpenCV技术布道,CV实用教程,业界前沿资讯 36篇原创内容 公众号 本文收集文本检测与识别相关论文,包含任意形状文本检测.场景文本识别.手写文本识别.文本分割.文本图像检索. ...

  • 超好用的OCR离线文字识别TextSniper Mac最新版

    TextSniper Mac最新激活版是Mac电脑上的一款超级有用的OCR识别应用程序,TextSniper Mac版可以快速捕捉任何文本.使用它从演示文稿,培训,屏幕广播,图像,图片,网页,视频教程 ...

  • 你了解ABBYY FineReader 14么?

    有没有一款是能够同时处理纸质文档和个类型PDF的一站式解决方案?答案是肯定的,ABBYY FineReader 14集合了强大的光学字符识别(OCR)以及 PDF 查看和编辑功能.不仅能够高效识别图片 ...

  • EasyOCR-支持40多种语言的即用型OCR python库

    EasyOCR是用于从图像提取文本的python模块.它是一种通用的OCR,可以读取自然场景文本和文档中的密集文本.我们目前支持70多种语言并正在扩展. 支持的语言 我们目前支持40多种语言,请参阅支 ...

  • (21条消息) 【华为云技术分享】传统OCR识别综述

    (21条消息) 【华为云技术分享】传统OCR识别综述

  • 基于深度学习OpenCV与python进行字符识别

    重磅干货,第一时间送达 当我们在处理图像数据集时,总是会想有没有什么办法以简单的文本格式检索图像中的这些字符呢? 今天我们就一起看看有没有什么简单的办法可以实现这一功能~ 对于字符识别,我们找到了一些 ...

  • 轻松识别文字,这款Python OCR库支持超过80种语言

    OCR是什么? 有一款软件叫扫描全能王,想必一些小伙伴听过,这是一个OCR集成软件,可以将图像内容扫描成文字. 所以说,OCR作用是对文本资料的图像文件进行分析识别处理,获取文字及版面信息. OCR的 ...

  • 三年磨一剑——微信OCR轻松提取图片文字

    伍敏慧 腾讯技术工程 4天前 导语 2021年1月, 微信发布了微信8.0, 这次更新支持图片文字提取的功能.用户在聊天界面和朋友圈中长按图片就可以提取图片中文字,然后一键转发.复制或收藏.图片文字提 ...

  • 炸了!这个GitHub开源项目绝对要火!涵盖OCR功能、语音合成!

    重磅干货,第一时间送达 今天小编为大家推荐一个相当牛逼的项目, 粗略估计,这个项目价值超过百万 当前star 1.9k,但是大胆预判, 这个项目肯定要火,未来Star数应该可以到10k甚至20k! 着 ...