tesserocr-用tesseract ocr API的包装实现的字符识别python库

2024-08-07 07:36:00

tesserocr是用tesseract ocr API的包装实现的字符识别python库。

tesserocr使用Cython直接与Tesseract的C ++ API集成，从而提供了简单的Pythonic和易于阅读的源代码。当threading 在tesseract中处理图像时释放GIL时，它与Python模块一起使用时可以实现真正的并发执行。

tesserocr设计为Pillow友好的，但也可以与图像文件一起使用。

要求

需要libtesseract（> = 3.04）和libleptonica（> = 1.71）。

在Debian / Ubuntu上：

$ apt-get install tesseract-ocr libtesseract-dev libleptonica-dev pkg-config

您可能需要手动编译tesseract以获取最新版本。请注意，LD_LIBRARY_PATH如果您安装了多个tesseract / leptonica ，则可能需要更新环境变量以指向正确的库版本。

Cython（> = 0.23）是构建和可选Pillow支持PIL.Image对象所必需的。

安装

使用pip安装：pip install tesserocr，或者通过网盘下载tesserocr的源代码进行手动安装。

设置脚本尝试检测包含/库目录（通过pkg-config，如果可用），但是您可以使用自己的参数覆盖它们，例如：

$ CPPFLAGS = -I / usr / local / include pip install tesserocr

用法

初始化并重新使用tesseract API实例为多个图像评分：

拒绝反爬虫！教你搞定爬虫验证码

文章来自:数仓宝贝库文末有赠书福利! 文末有赠书福利! 文末有赠书福利! 导读:目前,许多网站采取各种各样的措施来反爬虫,其中一个措施便是使用验证码.随着技术的发展,验证码的花样越来越多.验证码最初 ...
用Python进行OCR图像识别，小白一定要收藏

数据采集就怕遇到图片,只能看不能复制怎么办.手动将文字提取出来,要耗费很大的工作量.例如下图,某楼盘的一房一价表,怎么样发现单价低位的房子?光凭肉眼很难发现吧,能否让计算机进行文字的识别,然后再对这些 ...
常用验证码的识别方法

此文已由作者杨杰授权网易云社区发布. 全自动区分计算机和人类的图灵测试(Completely Automated Public Turing test to tell Computers and Hu ...
开源OCR识别库

最近在github上面看到一个开源的ocr文字识别库,感觉效果还可以,所以在这里介绍一下,这个项目的原地址在:https://github.com/tesseract-ocr/tesseract. t ...
OCR识别的开源分析

OCR软件主要是由下面几个部分组成. 1. 图像输入.预处理: 2. 图像输入:对于不同的图像格式,有着不同的存储格式,不同的压缩方式.预处理:主要包括二值化,噪声去除,倾斜较正等 3. 二值化: ...
基于深度学习OpenCV与python进行字符识别

重磅干货,第一时间送达当我们在处理图像数据集时,总是会想有没有什么办法以简单的文本格式检索图像中的这些字符呢? 今天我们就一起看看有没有什么简单的办法可以实现这一功能~ 对于字符识别,我们找到了一些 ...
pytesseract-谷歌 Tesseract OCR引擎包装的python库

Python-tesseract是用于python的光学字符识别(OCR)工具.也就是说,它将识别并"读取"图像中嵌入的文本. Python-tesseract是Google Te ...
EasyOCR-支持40多种语言的即用型OCR python库

EasyOCR是用于从图像提取文本的python模块.它是一种通用的OCR,可以读取自然场景文本和文档中的密集文本.我们目前支持70多种语言并正在扩展. 支持的语言我们目前支持40多种语言,请参阅支 ...
使用 OpenCV 和 Tesseract 对图像中的感兴趣区域 (ROI) 进行 OCR

重磅干货,第一时间送达在这篇文章中,我们将使用 OpenCV 在图像的选定区域上应用 OCR.在本篇文章结束时,我们将能够对输入图像应用自动方向校正.选择感兴趣的区域并将OCR 应用到所选区域. 这 ...
这3款酒，明明口感不输茅五剑，因包装丑陋被人小瞧，讽刺

酒是当代人饮食生活中的必需品,逢年过节,走亲访友,商务合作,生日喜宴等离不开酒,酒在任何时代都不过时,对于多数酒友来说,闲来无事,邀三两好友,品天下美酒,谈百态人生是一种人生境界! 要喝酒少不了要去买 ...
【文摘精选】注意！无论什么牌子，只要包装上有这几个字，慎买！

人生在世,离不开"吃喝",因而逛超市.购物成为生活必需,甚至是不少人的爱好之一,每天都得逛一逛. 很多人在选购商品时,往往单凭生活经验,或者哪个广告打得响买哪个,再看看生产日期.保 ...
农药包装上印的用量说明不知道如何换算？其实换算公式很简单

众所周知,农药对于我们农民来讲是再为常见不过的东西了,毕竟我们所种植的一切农作物,它们健康的生长发育都离不开农药的使用. 但是农药毕竟不同于其他产品,它的使用要求相对比较严格,因此这就要求我们在给作物 ...
普洱茶包装设计的素材

普洱茶包装设计的素材普洱茶包装设计的素材普洱茶包装设计的素材普洱茶包装设计的素材普洱茶包装设计的素材普洱茶包装设计的素材普洱茶包装设计的素材普洱茶包装设计的素材普洱茶包装设计的素材普 ...
擦亮眼睛：无论什么牌子，只要包装配料表上有这几个字，都不咋地

买东西千万要擦亮眼睛,商家套路多,很多消费者交的都是智商税! 下面这几种食物,无论什么牌子,只要包装上有这几个字,我劝你别买! 牛排--"卡拉胶"."黄原胶" ...
【坑王驾到】食品包装上竟藏着这些“陷阱”，很多人还不了解……

无论购买哪种食品,包装袋上都会印有"食品标签". 标签上的信息有很多,例如大多数人都关心的生产日期.保质期,以及配料表.营养成分表.名称类别.生产者信息等等. 其实,包装袋背后的那 ...

tesserocr-用tesseract ocr API的包装实现的字符识别python库

要求

安装

用法

相关推荐