嵌入式语音识别技术
应用领域语音识别将声音转换成文本和命令,从而达到语音输入、语音控制的目的。随着各种电子产品、移动产品的大量涌现,利用语音识别技术可以大大改善人机交互的方式。嵌入式语音识别技术,可以应用于多种基于Windows、WinCE、Linux等的应用系统、移动设备,可以通过语音来达到控制、查询和有限输入等“声控”目的。为顺应市场的潮流和推动语音识别技术的产业化,自动化所专门针对各种电子产品和移动电子产品,开发了一套基于连续语音识别技术的可变词汇、非特定人、命令词语音识别引擎 Pattek ASR/ESR, 这是一个具有良好接口的语音识别SDK引擎,该引擎在各种噪声环境、各种口音下,识别率具有稳定的识别率,且支持汉语、英语以及混合语言,支持Push-to-talk, Click-to-talk 和全声控等多种工作模式的应用。
Pattek ASR3.0/ESR主要特性1、 用户无需实现训练,为说话人无关系统,具有很好的抗口音能力;2、 识别准确率高,在常规语音拨号词表下(500左右)首选识别率可以达到95%;3、 卓越的抗噪性能:在大街上和汽车内等嘈杂的环境下仍能保持实用化的准确率;4、 占用系统资源少:系统程序空间98K,运行空间100K,模型空间270K,总共约475K;5、 能可以实现真正的Hand free操作,人与麦克风只要保持在30cm距离,系统都能正常工 作;6、 系统在要求下处于监控状态,能主动抓住系统所需要辨识的关键词和句型,而有效地拒绝非关键词和非定义句型;7、 句型可以由用户自行定义;8、 支持多个词表之间的切换和增词、减词功能;9、 任意提供多个识别候选,提高二次交互的准确率等;10、 具有良好的识别操作实时性,识别可以实时完成;11、 系统具有良好的实用性,可以在各种环境中使用,识别效果良好;12、 产品代码极其优化,占有很少的存储空间和运行空间。Pattek ASR3.0/ESR主要性能指标Pattek ASR3.0/ESR嵌入式系列识别引擎采用标准C语言编写,支持移植到任何第三方操作系统,实现强大的语音人机交互功能。已经实施移植过的支持的操作系统包括微软的WM5、PPC2002、2003,SmartPhone2002、2003等;Symbian联盟的Symbians60,嵌入式Linux如移软Mphone系统、博动OPNA系统,类Linux环境Nucles,低端运行环境REX,基带专用系统MTK等。Pattek ASR3.0/ESR 引擎可以根据CPU的性能特点进行裁减,在超过20MIPS运行能力的芯片上均可正常运行。如Intel的Xscale,PXA, TI的OMAP和TMS-54x/55x DSPs AD,高通的基于ARM9的5500系列,Philips Dragon Fly,展讯的6600M系列,MTK 62系列, ARM7/ARM9,BroadCOM等。下表为主要参数:内容描述缺省支持扩展支持录音数据采样率8k16k等,可定制数据表示16bit支持采样精度10-16bit通道数单声道最大录音时间3秒可定制识别命令集词编码GB2312Unicode等词形式汉字、数字、拼音英语命令集最大个数2可定制命令集名称最大长度10可定制RAM资源分配方式动态分配、静态分配ASR初始化内存13kASR词表内存3-4k(每100词)ASR一次识别过程所需内存63k(识别完释放)可调整TTS内存5k(一次支持20汉字)可定制ROM资源ASR程序(lib库)72k平台相关、优化TTS程序80k平台相关、优化ASR数据283k优化TTS数据671k优化识别速度20MIPS CPU、通常词表不超过2倍实时平台相关