如何快速地识别图片型PDF文档上的文字?
当我们在浏览使用PDF文档时,会发现有一些PDF文档是可以选取文字并进行复制搜索的,但也有一些PDF文档是无法进行文字选取的,这是为什么呢?
这是因为PDF文档包含了图像型与文字型两种类型。文字型的PDF文档可供搜索、选取与复制,而图像型PDF文档仅可浏览,不能进行搜索、复制等操作,需要借助专业的OCR文字识别软件,下面我们使用ABBYY FineReader PDF 15来完成文字识别。
一、图像型PDF文档
在使用浏览器打开图像型PDF文档时,我们是无法进行文本选取的,并且其右键快捷菜单中也不会包含复制等编辑选项。
而如果使用ABBYY FineReader PDF 15打开图像型PDF文档时,就可以使用其查看和编辑PDF文档功能,进行文档的文本识别。
二、开启编辑模式
ABBYY FineReader PDF 15的PDF文档打开功能,不仅包含了图像型PDF文档的文本识别功能,而且还允许我们编辑文档中的内容。如图4所示,通过单击“编辑”按钮,即可开启软件的编辑模式。
在编辑模式下,我们可以复制、剪切、删除、更改文档中的内容。
三、另存为文本型PDF文档
如果您希望在不开启ABBYY FineReader PDF 15的情况下,也能自由地复制、搜索PDF文档中的内容,可使用软件的另存为功能,将其保存为文本型的PDF文档。
具体的操作是,如图6所示,单击顶部的另存为快捷菜单,选择其中的“可搜索PDF文档”选项,即可将其保存为文本型PDF文档。当然,如果您希望编辑文档的内容,也可以将其另存为Word文档等可编辑文件类型。
保存后的可搜索PDF文档,如图7所示,既可自由地选取文本,也可以通过右键快捷菜单复制、搜索等。
四、小结
综上所述,图像型PDF文档能起到保护文档内容的作用,但如果要复制或搜索其中的内容,就需要借助专业的文本识别软件ABBYY FineReader PDF 15完成文本的OCR识别,才能进一步进行内容的选取、复制与搜索