未来智讯 > 人脸语音识别论文 > 误差反向传播算法的数字语音识别技能

误差反向传播算法的数字语音识别技能

发布时间:2018-11-26 01:06:05 文章来源:未来智讯    
    误差反向传播算法的数字语音识别技能作者:未知   摘要:研讨BP神经网络技能在数字语音识别中的应用,以基于语音信号产生的数字模型作为突破口,对所采集到的语音信号进行预处理,提取Mel频率倒谱系数,并将特征参数序列进行非线性时间规整为固定的帧数以便于BP神经网络的训练和识别。由MATLAB的实验数据分析可得,基于BP神经网络的数字语音识别技能具有很高的实用价值、数字语音识别率高。
  关键词:数字语音识别;BP神经网络;非线性时间规整;Mel频率倒谱系数
  中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)20-0141-02
  Digital Speech Recognition Technology Based on Back Error Propagation
  JIANG Li-sha, HE Zhao-xia
  (Yangtze University College of Technology & Engineering, Jingzhou 434023, China )
  Abstract:The BP neural network technology in the application of digital speech recognition,based on the figures of speech signal model as a Breakthrough, Collected for the speech signal preprocessing, The extraction of Mel frequency cepstrum coefficient,and will feature parameters for nonlinear time sequence neat for the fixed frame is advantageous for the BP neural network of training and recognition.By the MATLAB analysis of experimental data available ,digital speech recognition based on BP neural network has a high practical value,digital speech recognition rate is high.
  Key words: Digital speech recognition; BP neural network ; Nonlinear time neat; Mel frequency cepstrum coefficient
  1 概括
  数字语音识别技能[1-4]是语音识别技能应用中的一个重要领域,语音识别技能的应用包括语音导航、室内设备抑制、语音文档检索等。误差反向传播算法(简称BP网络模型),是在现有BP算法的基础长进一步提出来的,它的算法原理是:我们从众多权值中随便抽取一组权值,把所需要的指标输出当做是线性方程的代数和来构造线性方程组。算法包括信号的正向和反向传播,将BP神经网络应用于数字的语音识别中,通过仿真实验进行了1~10这10个数字的语音识别,取得了较好的识别效果。
  2 提取特征参数
  2.1 预处理和端点检测
  为了增加语音的高频分别率,最初对语音的高频局部进行预加重处理。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,正确地确定出语音信号的起始点。经过端点检测后,后续处理就能够只对语音信号进行,这对提高模型的精确度和识别准确率有重要作用。目前通用的方法是选取维纳滤波[5-7],是一种应用较为广泛的方法。
  2.2 声学特征提取
  特征提取是对信息量进行压缩的过程。常常应该具有以下特征:稳定性、唯一性、不变性。Mel频率倒谱系数(MFCC)参数能充分利用人耳感知特性,可以较好地描述人耳对语音音调的感知情况,把MFCC参数作为识别的特征参数,具有良好的识别能力和抗噪能力。
  操作步骤:
  
  图1
  1)最初对信号[s(n)]进行预处理及FFT变换。
  2)计算[s(n)]通过[M]个[hm(n)]后得到的功率值,得到[M]个参数[pm]([m=0,1,...,M-1])。
  3)三角滤波系数的求取。计算[pm]的自然对数,得到[lm]([m=0,1,...,M-1])。
  4)进行DCT计算,得到[dm],舍去直流成分的[d0],剩下的其他参数作为MFCC的实际参数。
  [dk=m=0M-1lmcos[πk(m+1/2)M]]
  5)分帧及加窗处理
  倒谱提升窗口便是在为每帧数据计算出[K]阶MFCC参数后,常常还要为这[K]个系数分辨乘以不同的权系数: [Ck=wkdk]
  [wk][=1+K2sin(πkK)] [K]=12。
  2.3 特征参数的时间规整
  特征矢量能量序列为[Y1,Y2,Y3,....YN] 其中第[n]帧矢量是由[L]个通道的带通滤波器组输出的能量构成:
  1)求间隔近来的两帧的声刺激
  [δ1=j=1Ly1j] [δn=j=1L|ynj-y(n+1)j|]
  2)分辨求出平均声和总声刺激   [Δ=n=1Nδn] [Δ0=Δ/M]([M
  图2 识别率曲线
  数字2,3,4,5,6,7,8,10的识别率都是100%,正确率很高;而1,9的识别率都是85%,存在一定的误差。导致识别误差的原因可能有以下几个方面:1)模糊性;2)干扰性;3)差异性。
  5 结果分析
  基于BP神经网络的方法,对10个数字语音的MFCC特征参数进行提取,联合非线性取样的规整算法把各个长短不一的特征参数序列规整为固定的帧数。结论证明,基于BP神经网络方法的整体识别本能较好,识别率较高。
  参考文献:
  [1] 余华, 李海洋, 李启元. 基于径向基神经网络的数字“0”~“9”语音识别[J].江西师范大学学报,2009,33(6):701-705.
  [2] 周志杰.MLP语音信号非线性预测器[J].解放军理工大学学报:自然科学版,2001,2(5):1-4.
  [3] 郑展恒.数字语音识别系统[J].桂林电子科技大学学报, 2011, 31(6):439-441.
  [4] 刘炀, 汤传玲, 王静, 等.一种基于BP神经网络的数字识别新方法[J].微型机与应用, 2012, 31(7):36-39.
  [5] 卜富清, 王茂芝, 于庆刚. 基于BP神经网络的数字识别[J].长江大学学报, 2009, 6(2):293-294.
  [6] 梁晓辉, 周权. 语音信号处理方法的可靠性研讨[J].电声技能, 2010(4).
  [7] 陈国, 胡修林, 曹鹏, 等.基于网格维数的汉语语音分形特征研讨[J]. 声学学报, 2001, 16(1):59-66.
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1126/47246/
 与本篇相关的热门内容: