pytesseract-谷歌 Tesseract OCR引擎包装的python库
Python-tesseract是用于python的光学字符识别(OCR)工具。也就是说,它将识别并“读取”图像中嵌入的文本。
Python-tesseract是Google Tesseract-OCR Engine的包装。它也可以用作tesseract的独立调用脚本,因为它可以读取Pillow和Leptonica图像库支持的所有图像类型,包括jpeg,png,gif,bmp,tiff等。此外,如果将Python-tesseract用作脚本,它将打印识别的文本,而不是将其写入文件。
用法
快速开始
注意:测试图像位于tests/dataGit存储库的文件夹中。
先决条件:
Python-tesseract需要Python 2.7或Python 3.6+
您将需要Python Imaging Library(PIL)(或Pillow fork)。在Debian / Ubuntu下,这是python-imaging或python3-imaging软件包。
安装Google Tesseract OCR (有关如何在Linux,Mac OSX和Windows上安装引擎的附加信息)。您必须能够将tesseract命令作为tesseract调用。如果不是这种情况(例如,因为tesseract不在您的PATH中),则必须更改“ tesseract_cmd”变量pytesseract.pytesseract.tesseract_cmd。在Debian / Ubuntu下,您可以使用软件包tesseract-ocr。对于Mac OS用户。请安装自制软件包tesseract。
注:请确保您也已安装tessconfigs并configs从正方体-OCR / tessconfigs或通过OS包管理器。
通过pip安装:pip install pytesseract
或者您也可以通过网盘下载pytesseract的源代码进行手动安装。
测试
要运行该项目的测试套件,请安装并运行tox。确保已tesseract 安装并且在PATH中。
pip install tox tox
pip install tox