未来智讯 > 人脸语音识别论文 > 基于小波混沌神经网络的语音识别

基于小波混沌神经网络的语音识别

发布时间:2018-11-27 01:06:05 文章来源:未来智讯    
    基于小波混沌神经网络的语音识别作者:未知   摘 要:基于语音信号的时变特性,提出了一种新型神经网络语音识别方法――小波混沌神经网络方法,即把小波变换和混沌特性引入到神经元,构成小波混沌神经网络,将这种神经网络用于语音识别,并与常用的BP神经网络识别方法进行了对照。实验结果证明,小波混沌神经网络的平均识别率要高于同等条件下常用的神经网络方法的识别率。��
  关键词:语音识别;小波变换;混沌;神经网络��
  中图分类号:TP391.42 文献标志码:A
   文章编号:1001-3695(2008)07-1986-02
  ��
  Speech recognition based on wavelet chaotic neural network
  WANG Xu,HAN Zhi��yan,WANG Jian,XUE Li��fang
  ��(College of Information Science & Engineering, Northeastern University, Shenyang 110004, China)
  ��Abstract:This paper proposed a new speech recognition method of neural network,introduced wavelet transform and chaotic characteristic to neurons, and built a wavelet chaotic neural network(WCNN).It applyed the class of neural network to speech recognition and compared the performance of the network with BP neural network.The experimental results show that chaotic neural network method outperforms the BP method. ��
  Key words:speech recognition;wavelet transformation;chaotic;neural network�お�
  从20世纪60年代人类便起初了语音识别技能的研讨,其目的便是使机器可以理解人类的自然语言。语言信号本身相当复杂,加上人类对语音学知识还很缺乏, 因而目前的任何一种语音识别方法在识别率和实时反应速度上都还很难达到人类本身的听觉效果[1]。人工神经网络方法[2]自80年代起起初应用于语音识别,为该课题注入了新的活力。但是,目前神经网络方法仍受到各种条件的限制,无法充分发挥其优势。为了改善这一状态,本文提出了一种新型的神经网络――小波混沌神经网络(wavelet chaotic neural network,WCNN),即将小波分析作为神经网络的前置处理,为神经网络隐含层提供输入特征向量、它具有响应速度快、识别精度高等优点;然后再提供给混沌神经元局部进行识别。选取人工神经网络技能进行语音识别的过程包含两局部,即网络学习过程和语音识别过程。网络学习过程是将已知语音信号作为学习样本, 通过神经网络的自学习, 最后得到一组连接权和偏置; 语音识别过程是将待测语音信号作为网络输入, 通过网络的遐想得出识别结果。这两个过程中的关键是求取语音特征参数和神经网络�┭�习。����
  
  1 语音特征参数提取��
  
  MFCC(Mel��Scald cepstrum coefficients)参数是基于人的听觉特性利用人的听觉临界带效应[3]。Mel标度频率域提取出来的倒谱特征参数提取过程如下[4]:��
  a)对输入的语音信号进行分帧、加窗,然后作离散傅里叶变换,获得频谱分布信息。��
  b)再求频谱幅度的平方,得到能量谱。 ��
  c)将能量谱通过一组Mel尺度的三角形滤波器组,滤波器的个数��M��和临界带的个数相近,中心频率为��f(m),0≤m<M,本文取M��=24。��
  d)计算每个滤波器组输出的对数能量。��
  e)经离散余弦变换(DCT)得到MFCC系数。本文取倒谱系数个数为12。��
  
  2 动态时间规整��
  
  将特征提取后的数据进行压缩,充分利用语音模式中的时间相关性作为识别的线索,通过动态规划方法能够对语音的时间失真加以规整,规整到特定帧数,以此作为神经网络输入。��
  
  3 小波混沌神经网络结构��
  
  3.1 小波混沌神经网络模型��
  神经网络是靠学习来实现某种映射功能的。BP算法作为神经网络的学习算法, 是目前的前馈神经网络最广泛使用的算法。但这种算法所存在的收敛速度慢、容易陷入部分极小值等缺陷,使该网络的本能受到影响。由于其他方法也有它们各自的优点,将神经网络与其他方法相联合,取长补短,继而能够获得更好的应用效果。本文所提出的小波混沌神经网络,便是将神经网络的自学习特性与小波[5]的部分特性及混沌神经元的混沌特性有机地相联合起来,不但具有神经网络自学习、自适应和鲁棒性等特性,而且具有小波变换良好的时频部分特性和混沌神经元的动力学特性。��
  
  针对语音识别问题,本文设计了一种能适应像短时语音信号一类的时间序列识别网络WCNN,网络共有四层,如图1所示。预处理层把输入层输入的数据进行若干级的小波分解,预处理层中不同的节点代表了不同的分解,对应于小波树中的叶节点。预处理层输出小波分解的结果给隐含层,在隐含层和输出层含有混沌神经元,即每层的神经元内部存在相互反馈输入, 而整个网络则通过每层之间单向的连接权构成一个多层的前馈网络。��
  3.2 WCNN学习算法��
  3.2.1 小波神经网络局部学习算法��
  小波神经网络局部是以小波函数为预处理层节点的基函数的一种函数连接型网络,它作为一种前向神经网络,与普通的前向神经网络相比具有结构可设计性、收敛精度可抑制性和收敛速度快等优点,目前已经用于信号处理、数据压缩和故障诊断等领域。��
  1)小波基函数 将小波母函数��Ψ(x)��进行伸缩和平移,得到一组连续小波函数基,即��
  ��φ����a,b��(x)=a����-1/2��Ψ(x-b/a)��(1)��
  其中:��a、b��分辨为伸缩、平移因子。本文中使用Morlet小波作为母小波,即��
  
  其中:��r��取为1.75。��
  2)小波神经网络模型 设��x��i��为输入层的第��i��个输入值,��f��t��为输出层的第��t��个输出值,��w����jh����为连接预处理层节点��j��到隐含层节点��h��的权重,��w����hi����为输入层节点��i��到预处理层节点��j��的权重,��a��k、b��k��分辨为第��j��个预处理层节点的伸缩因子,��n��为输入层节点个数,��T��为预处理层节点个数,则小波神经网络局部即隐含层输出为��
  ��f��t(x)=��Tk=1w����jh��φ[��nt=1(w����hi��x��i(i)-b��k)/a��k]��(3)��
  3.2.2 混沌神经网络局部学习算法��
  本文选取的混沌神经网络局部是通过批改和扩展的Nagumo��Sato model[6]。其方程如下:��
  ��x(t+1)=f[A(t)-α��td=0k��dg(x(t-d))-θ]��(4)��
  其中:��x(t)��为离散时刻神经元的输出,其值为0~1; ��f��为输出函数;��A(t)为t��时刻的外部激励即预处理层的输出;��g��为不应性函数;��α��为不应性度量参数;��k��为不应性衰减参数;��θ��为阈值。��
  
  由静态神经元组成的多层前馈神经网络的误差反向传播(BP)算法已经成熟,但一般的BP算法不能直接应用于混沌神经网络(chaotic neural network,CNN)的权值学习。这是因为混沌神经元中含有自反馈输入,无法直接计算其梯度。本文利用变分的方法[7],将BP算法推广到CNN的学习。那么CNN输出层中第��i��个神经元的动力学方程能够写成��
  
  其中:��x��i(t+1)为t+1时刻第i个混沌神经元的输出;M为混沌神经元的个数;w����ij��为第j个混沌神经元到第i个神经元的连接权;N为混沌神经元外部输入的个数;v����ij��为第j个外部输入到第i个神经元的连接权; A��j(t)为t时刻第j个外部输入;k、α分辨为神经元的参数。假如输入一特定类别的语音序列, 则在[t��0,t��1]��时间间隔内,总误差代价函数为��
  
  选取离散时间形式,CNN输出层的学习算法描述如下:��
  a)给定初始条件��x��i(0)和外部输入(上一层的输出)��A��j(t),��初始化权值w����ij��和v����ij����;��
  b)计算0~��T��时间内网络的实际输出��x��i(t)��;��
  c)在给定教师信号��d��i(t)��下,依据��
  
  后向计算Lagrange乘子;��
  d)批改权值��
  
  上面用变分的方法得出了网络输出层的权值训练算法,这是整个CNN局部学习算法的基本单元和重要组成局部。因为其他各层能够按照输出层类似的方法来训练权值。��
  
  4 实验结果及结论��
  
  实验中选用0~9十个汉语数字音作为待识别语音,实验数据取自五名学生在实验室环境下的录音,每人每个数字各发音40次。其中:30次作为训练样本;10次作为测试样本。采样频率为11.025 kHz,量化精度为16 bit,语音的帧长取为256个采样点。帧移为80个采样点,分帧后的语音进行端点检测;然后提取12阶MFCC系数和DWTMFCC系数作为语音识别的特征,所用神经网络的输入层为48个,输出层为10个,预处理层和隐含层的神经元个数通过仿真实验来确定,通过实验选择隐含层数为60个。表1为仿真实验的结果。
  
  从实验结果能够看出,用小波混沌神经网络的识别率明显优于用BP神经网络识别率。但是用不同小波基函数其识别率也不一样。在以后的研讨中,为了进一步提高语音识别率,能够考虑以下几个方面:不时改进神经网络的结构;更合理地选择较多的输入样本;更好地对输入数据进行处理,提取较好的特征参数等。这样神经网络语音识别的研讨将会提高到一个全新的水平。��
  
  5 结束语��
  
  本文针对语音信号的特点,综合应用了混沌与小波分析等理论,设计了新型的神经网络来进行语音识别,大大提高了语音识别的正确率。��
  
  参考文献:
  [1]JUANG B H.The past,present,and future of speech proceesing[J].IEEE Signal Processing Magzine,1998.
  [2]RYEU J K,CHUNG H S.Chaotic recurrent neural networks and their application to speech recognition[J].Neuro Computing,1996,13(2-4):281-294.��
  [3]RABINEER L R,JUANG B H.Fundamentals of speech processing and Recognition[M].[S.1]:Prentice��Hall,1993.��
  [4]何强,何英.MATLAB扩展编程[M].北京:清华大学出版社,2002.��
  [5]RIOUL O,VETTERLI M.Wavelets and signal processing[J].IEEE Signal Processing Mag,1991,8(4):14-38.��
  [6]AIHARA K,TAKABE T,TOYODA M.Chaotic neural networks[J].Phys Lett A,1990,144:333-340.��
  [7]任晓森,胡光锐.基于混沌神经网络的语音识别方法[J].上海交通大学学报,1999,33(12):1517-1520.
  
  注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1127/47727/
 与本篇相关的热门内容: