【学习笔记】嵌入式技术(1):基于内唇轮廓标定的唇印提取算法
摘要:针对现有特征唇印提取中信息处理量较大、识别率不高等问题,本文提出了基于内唇轮廓的特征唇印提取算法。算法首先在基元图像上对内唇轮廓特征点进行标定,建立基元唇印模型,然后通过均值计算构造普通模型,并利用Gabor变换对基元唇印和普通模型进行联合特征信息提取,最后通过相似度对比选择出特征唇印,以实现身份识别。仿真实验验证,本文的特征唇印提取算法在较低时空消耗下,具有较高的识别率,具有有效性和可用性。
0引言
特征唇印的提取是动态唇形身份识别技术中的核心环节,主要分为基于像素、基于模型以及混合型三类特征提取算法。基于像素的特征提取是直接对唇部的灰度图像进行特征提取。如文献[1]采用主成分分析法对唇部的灰度图像进行特征提取,虽然算法对唇部的灰度图像的质量要求较低,但易受其他因素的影响致使识别率有所差异。基于模型的特征提取通过对唇部建立相应的模型,以模型参数作为特征信息。文献[2]将自适应的均值模板引入到ASM中,虽然对唇部轮廓有更强的描述能力,但算法复杂,实用性较差。混合型的唇印提取算法结合了上述两种算法的优点。文献[3]采用AAM(Active Appearance Model)来提取特征,算法将轮廓模型与主成分分析法相结合,具有较好的效果,但过程较复杂。文献[4]提出了基于唇色滤波器的嘴唇特征提取, 适用于口型识别的实时唇定位。文献[5]运用DCT+LDA 的方法提取唇读视觉特征,但现有特征唇印提取中信息处理量较大、识别率不高。针对嘴唇的外沿变化不是特别明显、需要对大量数据进行验证和概括的问题,本文采用模型点和Gabor变换相融合的唇印提取算法,利用内唇轮廓上关键点建立唇印模型,利用Gabor变换进行特征提取,算法在一定程度上降低了复杂度,同时具有较高的特征表征能力。
1特征唇印提取模型及相关规定
1.1提取模型的相关规定
(1)为了便于叙述,设{a;o;i;u;sh;z}为关键基元,这6个声、韵母充分涵盖了说话人的唇型特征。
(2)对每个关键基元进行图像标定特征点、边,构造不同关键基元的唇部模型,称为基元唇印。
(3)对所有基元唇印进行多次训练,对标定的特征点、边取平均值计算得唇部均值模型,称为普通模型。
(4)将以身份识别的唇动特征模型称为特征唇印。
1.2特征唇印的提取模型
特征唇印的提取主要由基元唇印建立、普通模型构造、特征唇印选择等几个阶段组成。
(1)基元唇印的建立:从待识别的基元图像中选出一幅尚未提取特征的图像,对其内唇轮廓进行特征点标定,得到特征点的坐标及欧氏距离;(2)普通模型的构造:在基元唇印库中随机选择一定数量的基元唇印作为训练集,并根据基元类型分类,对每一类每个特征点求取平均坐标,构造六组普通模型;(3)特征唇印选择:将讲话人的六个基元唇印及六组普通模型对应起来,然后利用Gabor变换进行特征点抽取,计算相似度,选择相似度最小的作为特征唇印。流程如图1所示。
2基于内唇轮廓的特征唇印提取算法
内唇特征提取算法需要经过基元唇印建立和普通模型构造两个子过程。
2.1基元唇印算法
基元唇印的建立是特征唇印提取的前提,算法通过对嘴部图像集进行操作得到基元唇印库和6个基元唇印。基元唇印(Primitives Lipstick(P))算法流程如下图2所示。
设每个讲话人6个基元唇印相应嘴部图像集为P={Pi|P1,P2,P3…Pi},每个Pi中标定9个特征点,分别是左右嘴角各1个,内唇上沿3个,内唇下沿4个,从左嘴角起顺时针标定,从而得到Pi的特征点集T={Tj| 1≤j≤9}。然后计算特征点之间的欧氏距离,这里规定从Pi的特征点集中选择编号相邻的特征点,连接为特征边,设Dmn为Tm、Tn间欧氏距离。
2.2普通模型构造
普通模型在一定程度上反映了基元唇印库中的平均唇形,是内唇特征提取的基础环节。流程为:首先随机选择N个基元唇印作为训练集TtrainingSet={TSi| 1≤i≤N};然后根据{a;o;i;u;sh;z}对训练集TtrainingSet进行分类得到六个集合Ki={TSj| 1≤j≤Ni};再者根据公式(1)和(2)分别求出第i类集合Ni个基元唇印特征点的坐标平均值Xij和Yij。
普通模型构造(AverageMouth(TtrainingSet))算法流程图如图3所示。
2.3内唇特征唇印提取
在基元唇印建立和普通模型构造两个子过程的基础上,构造内唇特征唇印提取算法。
首先根据基元唇印算法建立讲话人的6个基元唇印;然后在基元唇印库中随机选择N个基元唇印作为训练集,接着利用式(3)对6个基元唇印以及训练集的6个普通模型的9个特征点进行5个频位、8个相位的Gabor分解变换,得到特征点的特征向量[6]。
Cj=Ajexp(iφj)(1≤j≤40)(3)
其中Cj为卷积结果,Aj为幅值,φj为相位。
设J为基元唇印第i个特征点的Gabor变换系数集合{Cj|(1≤j≤40)},J′为对应的普通模型第i个特征点的Gabor变换系数集合{Jj|(1≤j≤40)},Si为J与J’之间的相似度值,Aj和Aj ′分别为J、J′的幅值,利用角度无关的相似度计算公式(4)可得每个特征点的相似度。
计算9个特征点相似度的平均值,以sk作为基元对应的基元唇印与普通模型之间的相似度。
相似度越小表明识别率越高,对sk进行排序,选择相似度最小的基元唇印作为特征唇印。
根据以上思想并结合基元唇印和普通模型算法,可设计出完整的内唇特征唇印提取算法Lipstick Extract (K, P),算法的流程如图4所示。
3仿真验证
为了验证本算法的可行性,利用MATLAB进行仿真实验,实验选取32个不同讲话人拼读6个关键基元的视频帧,每个讲话人对应6个关键基元。
3.1特征点标定
本文选用内唇轮廓线上的9个特征点标定模型特征,如图5所示的9特征点B,用点c捕获[a]、[o]发音过程中嘴唇的高度,用a、e两点捕获[o] 、[u]发音时嘴角位置,用b、d两点捕获嘴唇在发[o]、[u]、[sh]等音时的形变,用f、g、h、i四点来反映嘴唇上下开合时的距离及[i]、[sh]、[z]发音时唇部特征。
3.2与普通模型间的相似度水平
将文献[7]、文献[8]以及本算法所构造的基元唇印与普通模型间相似度均值进行比对,从图6中可看出,由于特征点比文献[7]减少了将近一半,本算法平均相似度值略高于文献[7],但与文献[8]相比,具有较低的相似度,说明本算法的捕获信息的能力更强。
3.3时间效率
针对时间效率,将本文算法与文献[7]、文献[8]以及不提取特征唇印直接进行识别的文献[9]算法进行比对,时间效率比对结果如表1。
从表1可以看出,本算法在身份识别中时间耗费最小,有更好的时间性能,虽然文献[9]节省了提取特征唇印所耗费的时间,但在整个识别过程中耗费时间较多。
3.4识别率
针对识别率,将本算法与文献[7]、文献[8]以及文献[9]算法进行了对比,结果如表2所示。
从表2中可知,本算法的识别率仅略低于文献[7],但拒识率最低。说明本算法能够在较低时空消耗下,保证较高的识别率。表2不同算法的识别率对比本文算法文献[7]文献[8]文献[9]识别率/%78.8579.8272.2463.85拒识率/%0.83111.78
4结论
针对现有特征唇印提取中信息处理量较大、识别率不高等问题,本文提出了基于内唇轮廓的特征唇印提取算法,算法首先在基元图像上对内唇轮廓特征点进行标定,建立基元唇印模型,然后通过均值计算构造普通模型,并利用Gabor变换对基元唇印和普通模型联合特征信息提取,最后通过相似度对比选择出特征唇印,最终实现身份识别。仿真实验验证本文所提出的算法不仅耗时低,还具有较高的识别率。
参考文献
[1] Yang Jian,ZHANG D, Yang Jingyu. Constructing PCA baseline algorithms to rreevaluate ICAbased facerecognition performance[J]. IEEE Transactions on Systems,Man and Cybernetics,2007,37(4):1015-1021.
[2] KIM H C, KIM H J, HWANG W,et al.Facial feature point extraction using the adaptive mean shape in active shape model[C].Computer Vision/Computer Graphics Collaboration Techniques, France, 2007: 421-429.
[3] KATSAMANIS A, PAPANDREOU G, MARAGOS P. Face active appearance modeling and speech acoustic information to recover articulation[J],IEEE Tr.on Acoustics,Speech and Lang,2009,17(3):411-422.
[4] 姚鸿勋,高文,李静梅.用于口型识别的实时唇定位方法[J],软件学报,2000,11(8):1126-1132.
[5] NEFTAN A V, Liang Luhong, Liu Xiaoxing, et al. A coupled HMM for audio-visual speech recognition[C]. International Confzerence on Acoustics Speech and Signal Processing,2002,5(2):2013-2016.
[6] WISKOTT L,FELLOWS J M, N KRUK ger,et al.Face recognition by elastic bunch graph matching[J].IEEE Trans on Patern.Anal Mach Intell, 1997(19): 775-779.
[7] TIDDEMAN B, PERRETT D.Prototyping and transforming visemes for animated speech[C].IN Proceedings of Computer Animation,Geneva,Switzer-land,2002:248-251.
[8] Meng Yingjie, Li Zhaoxia,Hu Yingjie, et al. Speaker identification based on feature mouth shapes [J]. Journal of Information and Computational Science,2009(6): 1209-1216.
[9] POTAMIANOS G, Graf H. P, COSATTO E. An image transform approach for HMM based aotumatic lipreading [C]. Proceeding of the International Conference on Image Processing,Chicagao,1998(3):173-177.