自动提取图片中文字内容，这个开源免费软件送给你

- 1 -

图片内容提取方法及问题

前面的文章《3分钟读取、汇总300个pdf文件内容！多简单！多快！| PA实战应用》里，讲了使用Power Automate Destkop直接提取PDF文件内容的操作方式，但有朋友问，是否可以提取图片转成的PDF内容：

如上面回复，这里的核心其实并不是PDF内容的提取，而是图片识别的问题——就是我们经常说的OCR问题，当然，Power Automate里也是支持OCR识别的，而且提供了至少3种方式：

对于第2/3种方式，涉及到在线调用Google或微软云端认知（AI）接口的问题，在此暂不讨论。

而第1种是调用本机OCR引擎进行文字识别的，一般情况下我们可以直接使用，其中使用了开源的Tesseract开源OCR引擎，但是，默认情况下仅支持英语、德语、西班牙语、法语和意大利语等5种语言：

那中文怎么办？

- 2 -

OCR引擎安装及使用

实际上，对于不同语言的识别，关键是能获取到Tesseract引擎的数据包，而这可以通过下载、安装Tesseract软件获得（软件下载链接见文末）。

Tesseract软件下载后，安装非常简单，几乎所有步骤都是按提示操作即可，但是，下面这个步骤注意勾选“Additiona language data（download）”选项：

安装好后，我们即可以在Tesseract的安装目录下，找到tessdata文件夹，其中就有中文的数据包——chi_sim.traineddata：

有了这个数据包，接下来在Power Automate Desktop里的操作就简单了。

选择引擎、要识别的图片路径后，OCR引擎设置里，打开“使用其他语言”开关，语言缩写里填上“chi_sim”，选择语言数据包的路径即可，如下图所示：

经过上面的步骤，即可以提取到图片里的文字信息，然后我们可以添加“将文本写入文件”的步骤，将识别的图片文字信息输出到一个文件里：

- 3 -

图片文字提取效果

对于图片文字提取，大家最关心的一个问题是，提取的效果如何？即识别正确率是不是足够高？为此，我对多张图片进行了测试。

总的来说，读取格式清洁、规范打印的图片文字，效果还不错，如下图片：

除一些带下划线、特殊符号标记等造成的干扰外，绝大部分的内容均被正确识别：

而对于本身存在一些深色背景、格式比较混杂的图片，识别效果则很差！如下图，识别出来的内容基本不可用：

对于自己实际工作中的图片内容识别，建议在使用Power Automate构造自动化处理过程时，先进行测试，在识别率满足实际工作需要情况下投入使用。

Tesseract最新版本（v5.0.0 alpha.20210811）下载链接：https://pan.baidu.com/s/12OZnyz6vN0rGxno761tb3g

自动提取图片中文字内容，这个开源免费软件送给你 | PA实战资源