未来智讯 > 人脸语音识别论文 > 基于DTW的孤立词语音识别研讨
    基于DTW的孤立词语音识别研讨作者:未知   摘 要:最初对DTW算法进行了研讨和分析,针对其计算量大和抗干扰差的弱点,分辨提出了路径约束的DTW算法和放宽起始点的DTW算法。通过实验验证,使用改进后的DTW方法可以提高其识别速度和降低噪声对语音识别的干扰,提高语音识别率。��
  关键词:语音识别;特征提取;DTW;端点检测;孤立词��
  中图分类号:TP391.41 文献标识码:A 文章编号:1672-7800(2012)002-0137-03�お�
  ��
  基金项目:争辩的形式化模型及争议评价算法研讨(61075059)��
  作者简介:徐利军(1986-),男,湖北汉川人,湖北工业大学计算机学院硕士研讨生,研讨方向为人工智能、模式识别及语音识别等相关方向。
  
  
  1 弧立词识别系统概括��
  基于DTW算法的孤立词识别系统中主要有以下几个局部组成,语音输入、预处理、端点检测、语音特征参数提取、模板匹配和识别结果输出等。如下图1所示:��
  
  语音识别的预处理过程主要有预加重、分帧加窗等几个局部。其主要目的是语音信号采样、去噪等,便于后期的特征提取。��
  预加重的目的是提升高频局部,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析,一般用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现,其形式为:
  �И�H(z)=1-αz����-1��(1)�И�
   式中�Е联�为预加重系数,�Е联�取值为0.9-1.0之间的数,一般取值为�Е联�=0.95。��
  语音处理中的窗是与短时分析紧密联系的,而加窗的目的是为了提取采样的语音信号的短时数据,对短时数据信号进行精确的分析。实验中选取的窗函数为汉明窗,其形式如下:��
  ��w(n)=0.54-0.46��cos��(2πnL-1)0≤n≤N-1��0else��(2)��
  
  其中N为窗长。窗函数越宽,对语音信号的平滑作用越显著,而窗函数过窄,对语音信号的平滑作用就越不明显。��
  从包含语音的一段信号中确定出该语音的起始点及终止点的过程为语音端点检测。在孤立词识别中,确定单词语音信号的起始端点能够削减量的计算,提高语音识别的效率。目前常用的端点检测的方法有短时能量、短时过零率和双门限端点检测等方法。图2是数字“3”的端点检测结果,其中红色线为检测到的语音信号起始点和终止点。��
  语音信号的特征参数主要有:能量、幅度、过零率、频谱、倒谱和功率谱等,其常用的特征提取方法有:线性预测倒谱参数LPCC和Mel倒谱系数MFCC。线性预测倒谱参数LPCC是从人的发声模型角度起程,利用线性预测编码(LPC)技能求倒谱系数;Mel倒谱系数MFCC是构造人的听觉模型,以语音通过该模型的输出为声学特征。大量研讨证明:MFCC参数可以比LPCC参数更好地提高系统的识别本能。 ��
  2 语音识别模型训练及匹配方法��
  2.1 DTW原理��
  DTW是把时间归整和距离测度计算联合起来的一种非线性规整技能。假如:①参考模板特征矢量序列为��a��1,a��2,…,a��m,…,a��M��;②输入语音特征矢量序列为��b��1,b��2,…,b��n,…,b��N�В���M≠N�В�那么动态时间规整是要寻找时间规整函数��m=w(n)�В�它把输入模板的时间轴n非线性地映射到参考模板的时间轴m,并且该w满足:
  �И�D=�┆�min����w(n)∑Nn=1dn,w(n)(3)�И�
   式中:��dn,w(n)��为第n帧输入矢量和第m帧参考矢量的距离;D为相应于最优时间归整的两模板的距离测度。DTW是基于动态规划(DP)的算法来实现的。成功解决了发音长短不一的模板匹配问题。在DP的具体问题中,规整函数w(n)满足一定的约束条件,即:��
  边界条件:
  �И�w(1)=1,w(N)=M(4)�И�
   连续条件:
  �И�w(n+1)-w(n)=0,1,2(w(n)≠w(n-1))��1,2(w(n)=w(n-1)) (5)�И�
   根据约束条件,函数w(n)曲线被限于一个平行四边形内,如图3所示:��
  它的一条边的斜率是2,另一条边的斜率为1/2。DP算法便是找到一条从始点(1,1)到终点(N,M)的路线,使得两模板的匹配距离最小。��
  动态规划的算法是从过程的最终一个阶段起初考虑,即其最优决策是一个逆序的过程:最初,求��D(n,m)��是��d(N,M)�Ъ由溪�D(N-1,M)�В���D(N-1,M-1)�Ш酮�D(N-1,M-2)�е凶钚〉囊桓觥8�据连续条件(5-3),��D(N-1,M)�Р荒苁抢醋元�D(N-2,M)�В�然后判断��D(N-1,M)�В���D(N-1,M-1)�В���D(N-1,M-2)�В淮耸奔扑悛�d(N-1,m)�В�m是��n=N-1�Я猩显市淼闹怠R来卫嗤疲�逐次向起点推进。其递推公式为:�И�D(n+1,m)=d[n+1,m]+��min��[D(n,m)g(n,��m),D(n,m-1),D(n,m-2)](6)�И�
   式中,��g(n,m)=1(w(n)≠w(n-1))�ぁ�(w(n)=w(n-1)) �И�
  这里,��g(n,m)�У囊�入等效于n,m取值满足w(n)的约束条件。��
  由于计算每一点D[n+1,m],都要计算n列上3点的D值,结果是图2中的平行四边形中的每一个点都必须计算到,才能得出最后的D(N,M)。因此用动态规划技能做时间规整事务,是十分耗费时间的。��
  2.2 改进的路径约束DTW算法��
  由于上述DTW算法是十分耗时的,可在如图3中的平行四边形的基础上,将其分成动态弯折的3段,如图4所示:��
  
  图4中,直线1和2的斜率为2,而直线3和4的斜率为��12�АS纱丝芍�直线1、2、3和4的函数分辨为:��
  直线1:��y=2x�� 直线2:��y=2x+(M-2N)�И�
  直线3:��y=12x+(M-12N)�� 直线4:��y=12x�И�
  而其弯折3段分辨为��(1,X��a)�В���(X��a+1,X��b)�В���(X��b+1,N)�А8�据平行四边形两边的斜率可得��X��a=13(2M-N)�В���X��b=23(2N-M)�АN�了保证能进行动态弯折,M和N的长度应满足限制条件��2M-n≥3��2N-M≥2 �А�[JY](7)��
  此时X轴上的每一帧不再需要与Y轴上的每一帧进行对照,而只与Y轴上�В�y���┆�min����,y���┆�max����]�Ъ涞闹〗�行对照。而此时Y的曲线分辨为:
  �И�y���┆�min����=12x��y���┆�max����=2x (x≤X��a)��y���┆�min����=12x��y���┆�max����=12x+(M-12N) (X��aX��b��时与上面类似,本文不再详述。��
  2.3 改进的放宽起始点的DTW算法��
  在DTW识别算法中,识别的结果很大程度上是受端点检测的影响。在实际的语音识别过程中,原始语音易受到环境噪声的影响,同时噪声给语音信号的端点检测造成很大的障碍。而DTW算法是使用端点检测提供地独立参数,因此它要求测试模板和参考模板的起点和终点相互对齐,也对端点检测的精度要求很高。为了克服端点检测不精确造成的识别问题,可选取放松端点限制方法,不严格要求语音信号的端点对齐,即起点和终点在纵横两个方向能够放宽2-3帧。即起点能够在(1,1)、(1,2)、(1,3)、(2,1)、(3,1)中选择,终点也能够类似放松。如图5所示:��
  
  图5 放宽起始点后的区域限制��
  在放宽端点限制的DTW算法中,累计距离矩阵中的元素(1,2),(1,2),(1,3),(2,1),(3,1)不是根据部分判决函数计算得到的,而是直接将帧匹配距离矩阵的元素填入,自动从其中选择最小的一个作为起点,对于终点也是从放宽终点的允许范围内选择一个最小值作为参考模式和测试模式的匹配距离。��
  3 实验与结论��
  基于以上算法,选取8KHz的采样频率,量化精度为8位,对数字0-9,10个数字进行语音识别。每一个数字识别30次。��
  实验一:采集到的每个数字语音信号经过预处理、端点检测和MFCC提取其特征参数后,分辨选取DTW算法和改进后的路径约束DTW算法后,其识别的对比结果如表1所示:��
  
   实验结果中,DTW算法和路径约束的DTW算法的识别率相同,这点能够从改进路径约束的DTW算法原理中很容易得出,路径约束的DTW算法是改进了DTW算法过程中动态规划(DP)的搜索路径,降低了计算量。另外选取了路径约束的DTW算法的识别出一个数字的平均耗时是169.08ms,仅为DTW算法的识别时间的��49.06��%。因此,本实验验证了路径约束的DTW算法在不降低识别率的前提下,大大削减了DTW算法的计算量,提高了识别的速度,增强了DTW算法的实用性。��
  
   实验二:将采集到的每个数字语音信号分辨按照DTW算法和改进后的放宽起始点的DTW算法识别,其识别的对比结果如表2所示:��
  
   实验结果中,DTW算法与放宽起始点的DTW算法对数字的识别率相差不大,识别率也没有明显提高。但是,放宽起始点的DTW算法在降低噪声干扰,提高语音识别率上仍有一些进步。在路径约束与放宽起始点联合的DTW算法中,语音识别的速度得到提高,并且随着识别语音的增多,放宽起始点的DTW算法可以降低噪声对语音识别的干扰,提高语音识别率。��
  参考文献:��
  [1] RASHWAN,M.A,FAHMY,M.M.New technique for speaker-independentisolated-word recognition[J].Radar and Signal Processing,IEE Proceedings F.Publication Year:1988.��
  [2] 林波,吕明.基于DTW改进算法的孤立词识别系统的仿真与分析[J].信息技能,2006(4).��
  [3] 刘幺和,宋庭新.语音识别与抑制应用技能[M].北京:科学出版社,2008(2).��
  [4] THOMAS F.Qualieri,Discrete-Time Speech Signal Processing[M].Beijing:Publishing House of Electronics Industry,2004.��
  [5] LIYANG;LEJING;YANGYUXIANG;WANGJIAN. Improvement algorithm of DTW on isolated-wordrecognition[J].Computer Science and Automation Engineering (CSAE),2011 IEEE International Conference on.Publication Year:2011.��
  [6] ABDULLA,W.H,CHOW,D,SIN,G.Cross-words reference template for DTW-basedspeech recognition systems[J].TENCON 2003.Conference on Convergent Technologies forAsia-Pacific Region.Publication Year:2003.��
  [7] 曲丹,王波,李��程.VoIP语音处理与识别[M].北京:国防工业出版社,2010(5).��
  [8] 李邵梅,刘力雄,陈鸿昶.实时说话人辨识系统中改进的DTW算法[J].人工智能及识别技能.2008(4).
  
  �ぃㄔ鹑伪嗉�:周晓辉)

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1127/47720/
 与本篇相关的热门内容: