提出从特征提取参数、模型参数对隐马尔可夫声调模型进行区分型训练,来提高声调识别率;提出模型相关的权重对谱特征模型和声调模型的概率进行加权,并根据最小音子错误区分性目标函数对权重进行训练,来提高声调模型加入连续语音识别时的性能。声调识别实验表明区分性的声调模型训练以及特征提取方法显著提高了声调识别率。区分性模型权重训练能够在声调模型加入之后进一步连续语音识别系统的识别率。1802009,45(11)Computer Engineering and Applications计算机工程与应用码中的 lattice的每条边并行的加入声调模型得分:其中mn和mm分别当前以及更新的模型权重值。C为正平滑(q)=2m(q)= madaM q)+Bbnq)+q)+e(13)的常数。式(15)MP目标函数对权重的导数 Fupe/n可通过以下公式计算其中ψ(q)是 lattice中第q条弧的联合模型得分,ψ(q)是该条dFMPe- dFMpe ab(g)弧第讠个模型得分。η是该模型得分的可训练权重。如A(q)(16)bn(n)、q)以及w分别为谱特征模型得分,声调模型得分、其中第一项为MPE目标函数对第q条弧对数概率的导数,其语言模型得分以及词惩罚值。aB为根据经验选取的全局模型计算方法为:权重。ηA和η则为针对谱特征模型、声调模型可训练权重,将MPLη=(4,m)称之为模型权重对并根据MPE目标函数进行训练aFMPE /Ol(q)=ky17得其中y=y(c(q)-c)。y为 lattice中通过弧q的后验概率。22模型权重策略c(q)表示包含有弧q的所有句子假设的平均正确率。cmg为对于汉语语音,采用文献6的方法对带调音节进行三音子 lattice中所有句子假设的平均正确率。可在 lattice中进行前向-建模。例如对汉字序列”星星点点”,上下文相关模型分别为星后向有效地计算得到,其具体计算可参见文献3]。公式中的第(sil-x+ ingl x-ingl+x),星(ingl-x+ ingl x-ing1+d),点(ingl-d+二项计算方法为:(q)(mm=、(q),其含义为弧q某个并行模ian3d-ian3+d),点(ian3-d+ian3d-ian3+sil)。评估了三种模型型的对数概率。通过替换整理,区分性模型权重的更新公式为相关的权重策略:PE(1)带调音节相关:每个不同的带调音节赋予一对模型权7m=—K%7m,(q)n+C们m(18)MPA重。如第一个“星”与第二个“星”属于同一带调音节“xing",因(Ky mm.i (q)l,+Cnm此赋予同一对模型权重。这种模型权重考虑到了当前音节的声母-韵母类型;(2)韵母模型相关针对每个不同韵母模型赋予一个权重3实验与结果向量,如先后两个”星”的韵母模型分别为x-ingl+x和x-ingl+3.1数据库与实验配置d使用用不同的上下文相关模型建模,所以分别赋予不同的模实验在微软亚洲研究院大词汇量连续语音库基础上进行。型权重。这种权重策略同时考虑到了后继音节的声母类型;训练语料包含100个男性发声的31.5小时的19688条语句,(3)模型组合相关针对每个声母韵母模型组合赋予一个测试语料包含另外25个男性发声的0.74小时500条语句,共模型权重。短语中先后两个”星”字的模型组合分别为(sil-x+计9570个带调音节。语音数据采样率为16bit/16kHz。谱特征ing1x-ing1+x)和(ing1-x+1ng1x-imgl+d),为两个不同的模型观察矢量为每帧39维向量,包扩12阶MFC,归一化对数能组合,所以分别赋予一对模型权重;这种权重策略进一步考虑量,及其一阶、阶差分。微软基线系统谱特征模型为最大似然到了前驱音节的韵母类型。估计( Maximum likelihood estimation,MLE)训练的上下文相23区分性模型权重训练(DMWT)关3状态8高斯HMM模型。2.3.1最小音子错误目标函数声调识别采用的特征包括归一化对数能量及其一阶、二阶给定一个具有U条语句的练训集:O={01,…,On,…,On导数。对于基音频率的利用,一种是使用FO原始值及其一阶导最小音子错误目标函数是训练语料aice申所有句子假设正数,另外一种是采用移动窗归一化( Moving Window Mormal-确率的数学期望B4:ization,MwN)的声调特征,即通过当前音节前两个音节,后四个音节的平均基音频率对当前音节F0进行归一化。实验中在∑POls)P(s)Ac(s,s)原始F0以及MwN声调特征基础上考察区分性声调特征的效W果。声调模型采用175个上下文相关模型,每个模型为3状态,∑P(Os")"P(s)每个状态含有8个高斯,区分性特征提取共175个变换矩阵。其中O是第条训练语句的观察序列,P(sO)为给定观察序32声调识别实验及结果列O时句子 lattice中句子假设(路径)s的后验概率概率,k是32.1区分性模型训练结果减少模型概率动态范围的比例系数。Ac(s,s,)是句子假设s的表1给出了利用最大似然准则训练的HMM声调模型的正确率测度,可根据路径中每条弧(q∈s)与标注文本比对的正识别结果,两者分别采用了原始基音周期FO以及MWN特征,确率求和计算其中P(Ols)是路径s的声学概率,P(s)为语言采用MWN的特征较直接采基音频率FO误识率下降了64%。模型概率。更多关于最小音子错误可参见文献(3-4]。表1最大假然估计模型识别结果(采用F特征%)23.2区分性模型权重优化方法配置一声二声三声四声轻声平均设m是某个模型相关的权重对,mn为其中的第i个权FO+MLE31.245.558.541935值,通过调整模型权重以最大化MPE目标函数,设模型权重满MWN+MLE21942.145837.732736.7足mn>0,以及∑mn=1,可通过扩展 Baum Welch算法最大表2给出原始F0以及MWN声调特征下的区分性模型训化MPE目标函数,更新公式重写为:练识别结果,可以看岀区分性训练模型较最大似然训练模型误nm. s-,. ( OFMPE /om. i ,+C)识率显著下降。对于原始F0以及MWN特征,误识率分别下降(1563%以及5.6%。但考察轻声的误识率,区分性模型误识率上∑mn,(Fm/n+C)升,通过对训练语料进行统计,从对语音库的样本组成统计看黄浩,朱杰,哈力旦:汉语语音识别中的区分性声调建模方法2009,45(11)181出,轻声数据的训练样本数目只占全部训练语料的54%。轻声表5前后端联合训练识別结果识别率较低主要由于轻声训练数据较其他声调的训练数据小配置声二声三声四声轻声平均区分性训练过拟合的原因。FO+DTFE+MTE23.541.051.322.759.834.3MWN+DTFE+MTE19.832.843.819.157.429.2表2区分性模型训练识别结果(采用F0特征)(%配置声二声三声四声轻声平均声学模型的识别结果,在识别过程中没有使用语言模型。为了FO+MTE25.139.055.824.774436.8对比显式声调建模与隐式声调建模的识别结果,首先给出仅采MWN+MTE18.734.642.422.170.731.1用基于谱特征模型和隐式声调建模方法的识别结果。对于谱特为了减少由于个别类训练数据较少而造成误识率上升的的征模型,特征选取同微软工具箱。对于隐式声调建模,声学特现象,评估了1平滑方法在分类任务中的效果。在MP训练征除39维美尔频率倒谱系数(MFCC)之外,加入了基音频率当中,Ⅰ平滑的作用在于使用区分性训练模型与最大似然模型0及其一阶导数△F0以及共计41维观察矢量。训练方法采用之间平滑,减少由于训练数据过少的现象,从而获得更好的识最大似然和最小音子错误,识别结果见表6。其中基于MFCC别结果。评估了将其用于分类任务的效果,表3给出了不同平的最大似然训练即为MSR基线系统,误识率为48.7%。滑系数下的声调识别结果(8高斯,MWN特征),可以看出不同表6隐式声调模型建模方法识别结果平滑常数下对总体识别率的影响不大,但对于训练数目较少的特征训练准则带调音节误识率/(%)轻声声调误识率大幅上升的现象有所改善。MFCC最大似然MFCC最小音子错误表3不同平滑常数下的1平滑的识别结果(%)MFCC+FO+△FO最大似然41.8T声二声三声四声轻声平均MFCC+FO+△FO最小音子错误35.5018.734.642.422.170.731.15019.633.541.223.268.531.0表7给出声调模型基于显式声调建模的连续语音识别结10017937.243.326.547.331.5果。利用谱特征模型识别岀基于带调音节的 lattice,然后通过15018.638.243.727.445432.1在 lattice当中同时利用谱特征模型得分以及声调得分,根据20018.738343.827.644.632.2Viterbi解码得到似然度最高的带调音节序列。首先给出全局声3.22区分性特征提取实验结果调模型权重的识别结果,谱特征模型全采用MP准则训练得表4给出了区分性特征提取的结果,分别对原始F0以及。表7中FO+ML为采用原始FO最大似然估计的HMⅥ声MN特征进行区分性声调提取,显示在两种特征下较不采用调模型(表1中声调误识率为431%),其连续语音误识率为区分性特征误识率分别下降38%以及32%(表1)。因为表438.8%。MWN+DTFE+MTER为移动窗归一化基础上的区分性与表1的都采用最大似然方法进行模型训练,只是采用的特征声调特征,模型训练方法为区分性训练(表5中声调误识率为不同表明区分性特征的有效性。另一方面因为DTFE在原始292%),连续语音误识率为35.2%。可以看出当声调模型的性FO和MWN特征上都能够取得误识率下降,DTFE与声调高度能提升时,连续语音识别率也相应提高。归一化对识别率的贡献可加,表明DTFE并非简单的通过上下表7带调音节输出连续语音识别结果文音高归一化当前音节特征。声调模型权重策略带调音节误识率(%)表4区分性特征提取方法声调识别结果(%)FO+MI全局MWN+DTFE+MTE全局配置声二声三声四声轻声平均MWN+DTFE+MTE带调音节相关FO+DTFE30.142.647.636.946.939.3MWN+DTFE+MTE韵母模型相关33.2MWN+DTFE20.939.436033.643.033.5MWN+DTFE+MTE模型组合相关32.8MWN+DTFE+MTEF滑31.93.23特征参数、模型参数联合训练结果联合训练是指在DTFE的特征基础上进行区分性的HMM各模型权重策略的初值均初始化自全局模型权重,可以看参数重估,通过特征与模型的联合优化来获得更高的识别结出采用三种权重组合方式带调音节误识率从仅使用全局模型果。表5给出了声调识别结果,实验表明在区分性特征基础上权重的35.2%分别显著降低至343%、33.2%以及32.8%。由实进行区分性模型训练,较在区分性特征基础上的最大似然训练验结果来看,可训练参数的增多带来识别性能的提升。表明在(表4)分别获得50%和43%误识率下降。与仅使用F0或MWN解码过程中赋予声调得分时,考虑到前后声、韵母类型能够对特征的区分性模型训练(表2)相比较,声调误识率下降了2.5%识别率提高具有一定的作用。以及1.9%。因为表5与表2都采用区分性模型参数训练,只是对于区分性权重的更新,公式(17)中平滑常数的选取采用的特征不同,这也说明区分性训练得到的特征优于F0或MWN特征最后,区分性特征提取以及区分性模型参数的前后为C=E∑kx,Tm,M,其中E平滑控制常数,实验中选取端联合训练,与基于原始特征的最大似然模型训练相比较(表E=250能得到最佳的识别结果和收敛速度。实验中发现区分性1),误识率下降8.8%以及7.5%。权重训练迭代次数增多时,识别结果反而下降。这说明区分性3.3连续语音识别结果权重训练受到过训练的影响。为了减少过训练的影响,采用韵本文采用微软亚洲研究院语音识别工具箱提供的带调音母模型相关与模型组合相关的权重之间进行插值ηsηAm+节输出实验来验证提出权重训练的有效性。因为实验着重讨论(1-)mw产生平滑的模型权重,其中p=0.35为通过经验值选1822009,45(11)Computer Engineering and Applications计算机工程与应用定的平滑因子,实验表明通过权重的平滑之后带调音节误识率2000:1523-1526为31.9%,较采用模型组合相关权重得到近0.9%的进一步性[2]Leix,SiM, Hwang M, Ostendorf M, et al. Improved tone modeling能提升。较表6中隐式声调建模方法(35.5%)得到的获得3.6%for Mandarin broadcast news speech recognition[ C]//proceedings of的误识率下降,说明区分性权重训练是显式声调建模方法获得Interspeech(ICSLP), Pittsburgh, USA, 2006: 1277-1280最佳识别率的必要环节。[3 Povey D, Woodland P C Minimum phone error and i-smoothing formproved discriminative training Cp/Proceedings of the 27th Inter-4结论national Conference on Acoustics, Speech and Signal ProcessinFlorida USA 2002: 105-108提出了针对HMM声调建模的区分性方法,利用对区分性[4 Povey D Discriminative training for large vocabulary speech recog训练方法对模型参数进行重估;利用区分性训练方法对特征提nition[D]. Peterhouse Cambridge University, 2004取参数进行训练,来考虑汉语声调超音段特性的影响。声调识5 Povey D, Kingsbury B, Mangu L, et al. fMPE: discriminatively trained别实验结果表明区分性模型、特征参数训练显著降低了误识features for speech recognition[Cy/Proceedings of International Con率,对声调特征和声调模型的联合训练进一步降低了误识率。ference on Acoustics, Speech and Signal Processing, Philadelphia实验结果还表明,区分型特征参数训练与基频移动窗归一化对USA,2005,1:961-964识别率贡献具可加性。在利用声调模型提高连续语音识别性能6] Chang e, Shi yu, hou jian-lai, et al. Speech lab in a box:aMan时,使用区分性训练得到谱特征模型权重和声调模型权重,连darin speech toolbox to jumpstart speech related research[Cl/Pro续语音识别率较全局模型权重有显著提高。这表明通过使用文ceedings of the 7th European Conference on Speech Communica-中提出的区分性声调建模方法,显式声调建模明显优于隐式声tion and Technology, Aalborg, Denmark, 2001: 2779-2782[7 Gopalakrishnan P S, Kanevsky D, Nadas A, et al. A generalization of调建模。the Baum algorithm to rational objective functions[C/Proceedingsof the 25th International Conference on Acoustics, Speech and Sig-参考文献nal Processing, Glasgow, Scotland, 1989: 631-634[1] Huang C H, Side F Pitch tracking and tone features for mandarin [8] Lee T, Lau W, Wong Y W, et al. Using tone information in cantonesespeech recognition[C]/Proceedings of the 25th International Confercontinuous speech recognition[J]. ACM Transactions on Asian Lanence on Acoustics, Speech and Signal Processing, Istanbul, Turkeyguage Information Processing, 2002.1(1):83-102(上接174页)参考文献:值lr=215。在此基础上运用本文基于增强分形特征检测算法进]田晓东,刘忠基于分形理论的声纳图像人造目标检测算法计算行目标检测如图5〔e)所示,可见检测正确、可靠,并具有较好机工程与应用,2006,42(36):195-197的抑噪效果。作为对比,图5(f)和图5(g)为分别为直接运用分2] Wang li-di, Huang Sha-bai, Shi ze- lin Directional fractal dimen-维数特征和OTSU方法检测的结果。sion and its application in moving target detection( Cy/proceedings of对480480大小的图像,用 MATLAB在 Intel pentium186G7th International Conference on Signal Processing, 2004: 946-949的PC机进行仿真,分形模糊增强迭代1次和3次的处理时「3]孙玉秋,田金文,柳健基于分维像的红外弱小目标检测方法J华间分别约为4.7s和7.3s。实验表明迭代次数r并非越大越中科技大学学报:自然科学版,2007,35(5):13-15好,当取r=1时,模糊增强不够充分,随着r的逐渐加大增强4 Pal S K, King R A On edge detection of X- ray image using fuzzy效果会越来越明显,但当r取大于等于4时,对分形特征增scts[J].IEEE Transactions on Pattcrn Analysis and Machinc Intclli强质量提高不大,有时反而会造成细节消失。在本文方法中,gence,1983,5(1):69-7r=3比较合适。5]谢维信,刘健庄,谢海强.一种快速模糊边缘检测方法J信号处理1992,8(4):193-2016]郑春红,焦李成,陈希平,等一种快速模糊图像边缘检测算法J计5结论算机工程与应用,2004,40(32):48-50.针对复杂条件下分形集的非普适性及分形特征对图像内容7]杨水超,马志峰,赵保军.一种改进的模糊边缘检測快速算法J.红描述的不确定性,本文提岀运用模糊集理论进行分形尺度变化特外技术,2005,27(2):139-142征增强,能够显著提高目标和背景间的分形差异。由于采用新的模[8 Peleg S Multiple resolution texture analysis and classification [JI糊隶属度函数和模糊増强变换,使得算法避免了传统模糊增强方IEEE Transactions on Pattern Analysis and Machine Intelligence法的弊病。在此基础上,结合数学形态学和目标外形特征进行目1984,6(4):518-523.标检测保证了检测的正确性和可靠性,并具有较好的抑噪性能。[9张毓晋图像分割M北京科学出版社,2001