tesserocr-用tesseract ocr API的包装实现的字符识别python库
tesserocr是用tesseract ocr API的包装实现的字符识别python库。
tesserocr使用Cython直接与Tesseract的C ++ API集成,从而提供了简单的Pythonic和易于阅读的源代码。当threading 在tesseract中处理图像时释放GIL时,它与Python模块一起使用时可以实现真正的并发执行。
tesserocr设计为Pillow友好的,但也可以与图像文件一起使用。
要求
需要libtesseract(> = 3.04)和libleptonica(> = 1.71)。
在Debian / Ubuntu上:
$ apt-get install tesseract-ocr libtesseract-dev libleptonica-dev pkg-config
您可能需要手动编译tesseract以获取最新版本。请注意,LD_LIBRARY_PATH如果您安装了多个tesseract / leptonica ,则可能需要更新环境变量以指向正确的库版本。
Cython(> = 0.23)是构建和可选Pillow支持PIL.Image对象所必需的。
安装
使用pip安装:pip install tesserocr,或者通过网盘下载tesserocr的源代码进行手动安装。
设置脚本尝试检测包含/库目录(通过pkg-config,如果可用),但是您可以使用自己的参数覆盖它们,例如:
$ CPPFLAGS = -I / usr / local / include pip install tesserocr
用法
初始化并重新使用tesseract API实例为多个图像评分:
赞 (0)