扫描仪随机增送的TH
清华紫光F16扫描仪随机增送的文通TH-OCR 2000,是一款不可多得的文本识别系统,利用它你能随心所欲地识别出各种文本内容。为了帮助各位更好地用好清华TH-OCR 2000,本文将从扫描设置、版面处理、文字识别、编辑修改等几个方面,对TH-OCR 2000的使用进行全方位介绍!
一、基本信息
软件名称:TH-OCR 2000
软件大小:31744KB
软件授权:购买扫描仪随机赠送
使用环境:Win9x/2000/XP/2003
二、扫描设置
在识别文本之前,需要将文本内容先扫描到计算机系统中;为了提高文本识别的成功率,必须在扫描之前,进行一番正确的扫描设置。在正式设置时,无论你使用扫描仪自己的扫描设置界面,还是TH-OCR 2000系统提供的扫描设置界面,都必须进行下面的几个步骤:
1、选择扫描仪
依次单击TH-OCR 2000系统界面中的“文件”/“选择扫描设备”命令(如图1所示),要是扫描仪以及驱动程序已经正确安装好了的话,就会弹出一个“选定来源”对话框,在该对话框中选中F16扫描仪,然后单击“选定”按钮进行确认。倘若计算机系统中此时还没有安装扫描仪或驱动程序的话,那么“文件”菜单下面的“选择扫描设备”命令将会无效。一旦扫描仪被选定后,以后识别文字时,就不需要重复选定了,除非系统中重新安装了新的扫描仪。
2、设置扫描参数
在图1菜单中,选中“扫描设置”命令,弹出如图2所示的扫描设置窗口。接下来,你需要做的就是确定到底是使用TH-OCR 2000系统提供的扫描设置界面,还是扫描仪自身的设置界面。倘若你选择了“直接终扫”选项的话,就必须设置好如下参数:
亮度参数介绍
扫描亮度的高低,直接影响着OCR系统识别文字的准确性;在TH-OCR 2000系统中,亮度参数又包含三个选项:
第一个选项是固定亮度,你可以在该选项后面的列表框中,直接输入一个合适的亮度数值,也可以单击列表框中的上、下箭头来调整亮度大小,每单击一次向下的箭头,亮度数值将自动减小1,每单击一次向上的箭头,亮度将自动加大1。
第二个选项是“自动选择”,选中该选项时,扫描亮度大小是由TH-OCR 2000系统自动确定;在使用这个选项时,扫描仪一般要对原稿扫描两次,第一次是用来明确扫描文稿的亮度情况,另外一次就是对原稿进行正式扫描。
第三个选项是“手动调整”,选中该选项时,你可以随心所欲地设置亮度参数;当然使用该选项时,扫描仪也需要对原稿扫描两次,第一次扫描时屏幕会自动弹出如图3所示的扫描窗口;在这里,你在调整扫描亮度大小的同时,能很直观地观察到该窗口中的图象效果,观察到在不同亮度下,扫描好的图象质量以及明暗变化,直到效果满意为止。当然,你也可以单击这里的“自动”按钮,来选用自动设置亮度的方式,来观察扫描仪自动识别文本的效果究竟怎样;一旦你在图3窗口中获得比较满意的效果时,那么可以单击“确认”按钮,扫描仪将自动进行第二次扫描,以便将原稿内容正式扫描到TH-OCR 2000系统中。
亮度设置技巧
亮度大小直接决定了图象扫描时的明暗程度,将扫描亮度设置为合适的数值,可以确保TH-OCR 2000系统具有较高的识别成功率。要是亮度数值设置得太大,就容易造成文字笔划出现断裂现象或残缺不全现象,要是亮度数值太低的话,文字笔划容易互相粘接而黑成一团,因此太大或太小的亮度数值,都不能获得令人满意的文字识别效果。为帮助各位更好地设置扫描亮度参数,笔者特意提供如下几则技巧:
1、扫描背景颜色较浅的文稿时,包括背景底色发白、文稿纸张表面发亮、文字笔划精细等类型,应该将扫描仪的扫描亮度设置得稍微低一些,也就是要加暗、加黑;例如,在识别书刊、杂志中的文字时,由于它们的底色较白,而且书刊、杂志中的字体粗细适中,因此你可以将扫描亮度设置得中等偏低一些。
2、扫描背景颜色较深的文稿时,包括背景底色较黑、文稿纸张表面粗糙、文字笔划粗壮等类型,应该将扫描仪的扫描亮度设置得稍微高一些,也就是要加亮、加白;例如,在识别报纸中的文字时,由于报纸纸张粗糙,底色较黑,而且报纸中的字体较粗,所以你可以将扫描亮度设置得亮一些。
3、在识别文字尺寸较小的文稿时,请将扫描亮度设置得稍微高一些,不过要以不能出现太多的断裂笔划为限。
分辨率参数介绍
分辨率参数是TH-OCR 2000系统中的又一个重要参数。你可以直接在“分辨率”设置框中输入合适的数值,也可以单击“分辨率”设置框中的上、下箭头,来改变分辨率数值,每单击一次向上的箭头,分辨率数值会自动增大50,每单击一次向下的箭头,分辨率数值会自动缩小50。在TH-OCR 2000系统中,扫描仪分辨率的有效设置范围为100dpi-600dpi。
分辨率设置技巧
分辨率的大小,决定了图象是否能够被清晰地扫描出来;具体地说,文稿内容是否能够被正确地识别,与扫描分辨率的设置有直接的关系。例如,当原稿中的文字尺寸比较小时,你就必须设置较高的扫描分辨率,才能获得满意的识别效果;要是原稿中的文字尺寸比较大时,你就没有必要设置太大的分辨率,以避免增大扫描图形的尺寸,延长扫描的时间。为此扫描分辨率的设置,必须依据原稿文字的大小来进行。
通常情况下,原稿文字的最小尺寸为5号字体,识别这些文字时,可以将分辨率设置为300dpi或400dpi就可以了;在识别比五号字体还小的文字时,可以使用400dpi或600dpi大小的分辨率;在识别比三号字体还大的文字时,可以将扫描分辨率设置为200dpi。
页面参数介绍
由于F16扫描仪的扫描幅面为A4,因此使用该扫描仪一次性最大只能识别A4幅面的文稿;要是被识别的文稿尺寸没有A4幅面那么大时,你可以单击“页面”下拉列表框中的合适幅面,这样可以有效地节省扫描时间,提高文本识别效率。
反转图象介绍
该参数通常是用于黑白二值图象的;考虑到不同型号的扫描仪,对于扫描获得的黑白二值图象的表示方式不一样,有的扫描仪用“1”表示有文字的地方,而有的用“0”表示有内容的地方;形象地说,有的扫描仪能扫描出白底黑字的效果,有的可以得到黑底白字效果。为了能兼容不同型号的扫描仪,TH-OCR 2000系统提供的反转图象功能,可以将白底黑字转换成黑底白字,也能将黑底白字转换成白底黑字,在默认状态下,TH-OCR 2000系统是用“0”表示有内容的地方,也就是说该系统能将文稿内容扫描成白底黑字。
删除空白边界
这种参数是为了提高文本识别准确率而提出的,考虑到不少文稿边界都是空白内容,因此选用这个参数的话,不但能够减少扫描区域,也能提高识别效率。
完成上面的所有参数设置后,你再执行TH-OCR 2000系统主界面工具栏中的“扫描”按钮,来将原稿内容扫描到系统中来,扫描完毕后,你就能看到一个如图4所示的黑白二值图象了。
三、版面处理
有时被识别的文稿内容,既有横排文字,又有竖排文字,说不定还包含图象内容;面对如此复杂的版面,你必须先进行版面处理,才能进行文字识别操作,不然的话文字识别成功率是不高的;相反,要是文稿中只有简单的横排文字,而没有其他复杂的版式时,你就能跳过版面处理,而直接进行文字识别操作了。
1、版面分析
所谓版面分析,其实就是对扫描好的文稿内容,按照文字属性的不同,划分出各自不同的区域,例如文字横排区域、图象显示区域、文字竖排区域、表格显示区域等;对于每一块区域,分别标出它们的属性,同时标明不同区域之间的顺序,以便系统能更准确地识别出文字。
TH-OCR 2000系统为我们提供了两种版面分析方式,一种是手动分析,另外一种是自动分析。在进行手动版面分析时,你只要用鼠标将需要识别的区域分别选中,然后给选中的区域设置好内容属性;这样TH-OCR 2000系统,就会按照区域的选定先后顺序,来依次识别每一区域;在默认状态下,TH-OCR 2000系统将自动处于手动版面分析状态下。下面,就让我们来看看如何具体地进行版面分析。
倘若你需要新建一个识别区域时,首先要分清楚新版面区域是属于横排文字,还是竖排文字,还是表格,还是图象;然后在工具栏中单击一下对应类型的选区按钮,例如要是想选择横排文字的话,那么你必须单击“横排正文”按钮,接着将“ ”形鼠标指针移动到文稿图象中的没有任何选定区域的位置,并按下鼠标左键同时进行拖动,直到需要识别的目标区域被选中为止,如图5所示;
要是你想将当前选定的识别区域,移动到另外一个位置时,可以先将鼠标移动到该选定区域上,然后按下键盘上的Ctrl键,同时按下鼠标左键进行拖动,直到移动到目标位置后再放开鼠标;
倘若你想改变目标选区范围时,首先用鼠标选中目标选区,然后将鼠标移动到选区边框线上,当鼠标形状变成双箭头符号时(如图6所示),再拖动鼠标,就能对原选区范围进行扩大和缩小了;
要是你想改变某个选区的识别顺序时,可以先选中这个目标选区,然后用鼠标右键单击之,从弹出的图7菜单中,执行“区域顺序”命令,这样当前选区左上角就会出现一个顺序数字,例如要是这个数字为6的话,就表示该选区在第六位被识别;要是你想调整这个顺位数字的话,可以在该状态下,直接单击鼠标左键,每单击一次该数字会自动增加1,当该数字超过所有选区数目时,该数字将会自动返回到1。
除了允许你用手工方式来随意进行版面分析外,TH-OCR 2000系统还能对原稿图象,进行自动版面区域划分以及属性设置;对于那些排版规范、而且由多个矩形区域组合而成的原稿图象,就可以使用自动版面分析,来提高版面处理的效率。要想自动进行版面分析时,只要单击TH-OCR 2000系统主界面“命令”菜单项,从弹出的下拉菜单中执行“版面分析”就可以了。
2、倾斜校正
考虑到不少用户操作不当的原因,原稿图象可能不会被扫描得横平竖值,而且原稿图象出现一定角度的倾斜现象,几乎是不可避免的;TH-OCR 2000系统可以对那些倾斜角度在1-2度之内的文稿自动适应,你不需要对它们进行校正,就能自动识别;不过对于倾斜角度比较大的文稿,必须在识别之前先进行倾斜校正,然后才能进行文字识别。当然,要是文稿倾斜角度超过15度的话,会导致文稿图象严重变形,即使通过倾斜校正,也很难确保系统能准确识别它们,为此对于这样的文稿图象,你只有重新扫描。
在进行倾斜校正操作时,只要依次单击菜单栏中的“命令”/“倾斜校正”,TH-OCR 2000系统会自动将图象画面调整到横评竖直位置;当然,要是文稿倾斜角度比较大的话,可能需要重复执行“倾斜校正”命令,直到校正效果满意为止。
3、图象处理
为了能让你随心所欲地识别文稿图象中的内容,TH-OCR 2000系统还允许在识别文字之前,对文稿图象进行随意处理,以满足特定的识别要求。图象处理包括对旋转图象、反转图象、裁减图象、恢复图象等操作:
旋转图象
TH-OCR 2000系统为你提供的图象旋转功能,可以让你每次将图象顺时针旋转90度,多执行几次该命令后,就能让图象旋转到180度、270度、360度等;在对图象文稿进行旋转时,可以依次单击菜单栏中的“图象”/“旋转图象”命令,也可以直接单击工具栏中的“旋转图象”按钮,每执行一次命令或单击一次按钮,文稿图象将自动顺时针转动90度,如图8、9所示的画面,就是图象旋转前后的效果对比图。
图象旋转功能主要用于原稿材料比较宽,特别是其宽度超过了扫描仪宽度时,就可以将原稿材料旋转90度后,再放到扫描仪平面玻璃板中,进行扫描识别。
反转图象
由于TH-OCR 2000系统在缺省状态下,用“1”表示文稿中有内容的区域,也就是说用黑底白字显示文稿图象效果,不过这种效果不利于你的正常观看,因此有时你需要人为地将文稿显示效果调整为白底黑字。倘若你使用的是TH-OCR 2000系统提供的扫描界面,那么你可以选中扫描设置界面中的“反转图象”选项(见图10所示),来调整文稿的显示属性,以便获得合适的图象效果;但是,你要是通过其他方式获得文稿扫描图象的话,就需要使用这里的“反转图象”命令,来进行黑白反相处理了。
在需要进行黑白反相时,只要单击主界面中的“图象”/“反转图象”命令,就能获得黑白反相后的效果了,如图11所示的画面,就是将白底黑字画面反转为黑底白字的效果图。
恢复图象
为了预防对文稿图象进行的各项操作出现错误,TH-OCR 2000系统还为你提供了“恢复图象”功能,利用该功能,你可以及时取消错误操作,让图象恢复到“原始面貌”。遇到有错误时,只要单击主界面菜单栏中的“图象”/“恢复图象”命令,就能得到原始文稿图象。
四、文字识别
完成文稿图象的版面处理操作后,你就可以进行文字识别操作了。在识别之前,还需要设置好识别字体;TH-OCR 2000系统可以正确识别的字体包括英文字体、繁体汉字、简体汉字;例如,要是原稿材料是英文的,那么你必须将识别字体设置为“英文”,要是原稿是中英文混合排版的,你可以将识别字体设置为“简体汉字”;要是识别字体不正确的话,那么文字识别的成功率就会受到影响。
在设置字体时,可以在图示的下拉列表框中,选择合适的字体;其中的“多体”,表示系统自动识别出各种常见的字体,例如楷体、黑体、圆体、宋体、仿宋体等,而不需要你用手工方法来辨别。
当然,在正确识别文字之前,你还要检查一下当前原稿图象是否是白底黑字,要是不是的话,你必须进行一下“反转图象”,以确保系统能够正确识别文字。
完成了上面各项准备工作后,识别文字就变得非常简单了。依次单击菜单栏中的“命令”/“识别”选项后,TH-OCR 2000系统就会自动对选定区域进行依次识别;要是当前文稿图象已经被识别过的话,你再执行“识别”命令时,系统将自动弹出“覆盖”提示界面,以便通知你是否要覆盖原有识别结果,要是单击“是”的话,就会重新进行识别,要是单击“取消”的话,那么系统将不会再次识别。
结束识别操作之后,执行“显示”/“后编改状态”命令,进入到如图11所示的文本编辑环境,在这里你可以对照原稿文字内容,将识别错误的内容修改过来。
五、编辑修改
TH-OCR 2000系统的编辑环境,主要包括使用TH-OCR 2000系统特有的编辑操作以及使用Windows标准的编辑操作两部分内容;在图13所示的编辑界面中,主要包括上下两个子窗口,其中上面的子窗口是待编辑的文本窗口,下面的子窗口就是与文本相对应的图象窗口。当然,要是原稿材料的文字是竖直排列的话,那么识别之后的编辑窗口,就可以分为左右两个子窗口,其中左边的子窗口显示的是待编辑的文本窗口,右边的子窗口是与文本相对应的图象窗口。
在图13所示的编辑界面中,你可以利用工具栏中的复制、剪切、粘贴、清除命令,来进行Windows标准的编辑操作,这些操作基本上都是面向文本进行处理的,这里笔者就不详细介绍了。下面,还是一起来看看TH-OCR 2000系统特殊的编辑功能吧:
1、前向词汇
前向词汇功能是指依照光标所处位置的前一个中文汉字,并通过词汇联想的方式,自动显示出当前光标所处位置可能的中文汉字,利用这种功能可以很轻易地将一个词汇中后面一个错误的字修改过来。比方说,要是原稿内容中本来应该是“祖国”,而其中的“国”因为某些原因,被系统识别错误了,那么利用前向词汇功能,系统会因为前面一个字是“祖”,而自动列出了“母”、“父”、“宗”、“国”等一系列能够与“祖”构成词汇的汉字,这样你只要根据上下文的意思,选中“国”字就能将错误修改过来了。例如,在图12所示的窗口中,“门口”的“口”被识别成了“r)”,此时执行“编辑”/“前向词汇”命令后,系统弹出了“口”这样的汉字,与“门”组成了词汇。
2、逆向词汇
逆向词汇功能是指依照光标所处位置的后一个中文汉字,同样也通过词汇联想的方式,自动显示出当前光标所处位置可能的中文汉字,利用这种功能可以很轻易地将一个词汇中前面一个错误的字修改过来。比方说,要是原稿内容中本来应该是“中华”,而其中的“中”因为某些原因,被系统识别错误了,那么利用逆向词汇功能,系统会因为后面一个字是“华”,而自动列出了“中”、“清”、“荣”等一系列能够与“华”构成词汇的汉字,这样你只要根据上下文的意思,选中“中”字就能将错误修改过来了。
3、相似字
相似字功能是指文字识别系统会依据特定的算法,获得一些和扫描得到的图象外观比较接近的汉字,其中最接近的那个汉字就是最后的识别结果。当然,这里提到的相似字,并不是单纯的一个字,而是由系统自动列出的所有可能的汉字,以便你从中选择正确的结果。
在TH-OCR 2000系统的识别输入过程中,无论识别错误的汉字是一个词汇,还是一个与前后字都不能组成词汇的字,利用相似字功能,你可以有效地修正它们。在缺省状态下,TH-OCR 2000系统会自动启动相似字功能,以便操作者能够高效地进行编辑修改。
当然,要是通过上面的三种编辑方式,都不能将错误汉字修正过来的话,你可以直接在文本编辑子窗口中,将错误汉字删除,然后利用五笔输入法、拼音输入法等,直接将正确的汉字输入。
4、常用符号
相似字功能是指TH-OCR 2000系统为你提供了在键盘中不大容易输入,但平时又经常需要用到的标点或符号,利用该功能你可以轻松地修改被识别出错的各种符号。
依次执行“编辑”/“常用符号”命令,这样编辑界面将自动进入常用符号状态,此时编辑界面状态栏中会看到“常用符号”的提示,如图13所示。正常情况下,一屏只能显示十个常用符号,需要调用其他符号时,可以同时按下快捷键“Shift >”或“Shift <”,来进行翻屏显示;一旦屏幕中包含有你需要修改的符号时,直接按下对应该符号前面的数字就可以了。
原文连接
http://www.yesky.com/ServerIndex/77129684193640448/20040812/1841781.shtml