未来智讯 > 人脸语音识别论文 > 粒子群优化RBF神经网络的语音识别研究

粒子群优化RBF神经网络的语音识别研究

发布时间:2017-12-07 09:12:00 文章来源:未来智讯    
    关键词:粒子群 径向基 神经网络 语音识别
    中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2013)04-0109-02
    近年来,语音识别作为一种便捷的人机交互方式被大量研究,并在日常生活中得到广泛应用。大体上讲,语音识别就是在给定的语料库中找出与待识别词语相同的语料,其识别方法的选择对识别效果至关重要。语音识别的方法主要有3种:基于语音特征和声道模型的方法、模板匹配的方法和人工神经网络[1]。第1种方法出现较早,但由于其模型过于复杂,并未得到实际应用。第2种方法较为成熟,主要通过动态时间规整(DTW)、隐马尔可夫模型(HMM)和矢量量化(VQ)技术实现[2]。第3种方法充分利用人工神经网络较强的分类能力和输入——输出映射能力,非常适合解决语音识别这类难以用算法描述而又有大量样本可供学习的问题[3]。
    因此,本文将智能领域广泛使用的RBF神经网络运用到语音识别中,针对RBF神经网络隐层基函数的中心值和宽度随机确定的缺陷,运用具有全局寻优能力的粒子群算法(PSO)进行优化,来提高网络的泛化能力和收敛速度,从而提高识别率。实验结果表明,粒子群优化的RBF神经网络用于语音识别,能够显著提升识别性能。
    1 粒子群优化RBF神经网络
    1.1 RBF神经网络
    1.2 粒子群优化RBF网络算法
    因此,RBF神经网络隐层基函数中心值和宽度的优化过程就是PSO算法依据输入样本进行聚类的过程,其基本流程为:
    (1)参数初始化,包括粒子速度、位置,个体最优位置和全局最优位置;
    (2)据(5)式计算惯性权重;
    (3)据(3)(4)式更新粒子的速度和位置;
    (4)据(6)式计算各粒子适应度值,并更新个体最优位置和全局最优位置;
    (5)用全局最优粒子代替本次迭代适应度差的粒子;
    (6)反复迭代,直到最大迭代次数则停止,得聚类中心。
    2 PSO优化RBF语音识别系统
    语音识别过程主要包括信号预处理、特征提取、网络训练及识别[6]。预处理主要对语音进行分帧、预加重和加窗处理。特征提取用于提取语音中反映声学特征的相关参数,本文采用的是过零峰值幅度(ZCPA)。网络训练是在识别之前从语音样本中去除冗余信息,提取关键参数,再按照一定规则对数据加以聚类,形成模式库。网络识别是通过已训练好的网络,计算测试样本数据与模式库之间的相似度,判断出输入语音所属的类别。粒子群优化RBF神经网络的语音识别系统原理框图如图1所示。
    PSO优化RBF神经网络进行语音识别的实验步骤如下:
    第1步:提取特征。
    首先对用于训练和识别的各种信噪比的语音文件进行ZCPA特征提取。语音信号的采样频率为11.025kHz,每帧为256个采样点,经过时间和幅度归一化处理后,得到256维特征矢量序列。
    第2步:网络训练。
    网络训练的过程就是调整RBF神经网络基函数的中心和宽度以及隐层到输出层之间的连接权值。实验中,类别数为待识别的词汇数,如对10个词进行识别,则隐层节点数、输出层节点数和聚类中心均为10,如对20个词进行识别,则隐层节点数、输出层节点数和聚类中心均为20,以此类推,本文对10词、20词、30词和40词分别进行训练识别。利用PSO优化算法通过聚类获取隐层基函数的中心值和宽度,网络输出权值使用伪逆法得到。在PSO算法中,种群大小为20,最大进化迭代次数为40。
    第3步:网络识别。
    RBF神经网络训练好后,将测试集中的样本输入网络进行识别测试。每输入一个单词的特征矢量,经过隐层、输出层的计算后可得一个单词分类号,将这个分类号与输入词自带的分类号进行对比,相等则认为识别正确,反之,识别错误。最后将识别正确的个数与所有待识别单词数的比值作为最终的识别率。
    3 实验仿真分析
    本文运用matlab在PC机上仿真实现了PSO优化RBF神经网络的孤立词语音识别系统,选用在不同高斯白噪声条件下(包含15dB、20dB、25dB和无噪声),18个人分别录制40词各三次,形成实验语音数据,实验时选其中10人的10词、20词、30词、40词语音数据分别作为训练样本,另外8个人对应的10词、20词、30词、40词语音数据分别作为测试样本进行实验,得到了不同噪声和词汇量下的粒子群优化RBF神经网络的语音识别结果。
    表1所示为在不同词汇量和不同SNR下,分别基于PSO优化RBF神经网络和标准RBF神经网络采用ZCPA语音特征参数的语音识别结果。由表中识别率的变化可知,基于PSO优化的RBF神经网络的识别率在不同词汇量和不同信噪比下都比标准RBF神经网络的高,正确识别出的词汇量明显增多,这充分证明改进后的RBF神经网络具有自适应性和强大的分类能力,缩短网络训练时间的同时,提高了系统的识别性能,尤其在大词汇量的语音识别中表现出更加明显的优势。
    4 结语
    本文采用粒子群优化算法来聚类RBF神经网络隐层基函数中心值和宽度,并将PSO改进的RBF神经网络用于语音识别中。通过仿真实验,得出了其与标准RBF神经网络在不同词汇量和不同SNR下的语音识别结果。通过分析比较,证明了PSO优化后的RBF神经网络有较高的识别率,且训练时间明显缩短,表明神经网络方法非常适宜求解语音识别这类模式分类问题。
    参考文献
    [1]Edmondo Trentin, Marco Gori. A survey of hybrid ANN/HMM models for automatic speech recognition[J].Neurocomputing,2001,(37):91-126.
    [2]王凯.免疫粒子群改进LBG的孤立词语音识别算法研究[J].数字技术与应用,2013,(1):111-113.
    [3]夏妍妍,黄健,尹丽华.基于径向基函数神经网络的语音识别[J].大连海事大学学报,2007,(S1):157-159.
    [4]孟艳,潘宏侠.PSO聚类和梯度算法结合的RBF神经网络优化[J].自动化仪表,2011,(02):6-8.
    [5]段其昌,赵敏,王大兴.一种改进PSO优化RBF神经网络的新方法[J].计算机仿真,2009,(12):126-129.
    [6]余华,黄程韦,金赟,赵力.基于粒子群优化神经网络的语音情感识别[J].数据采集与处理,2011,(01):57-62.
转载请注明来源。原文地址:https://www.7428.cn/page/2017/1207/9095/
 与本篇相关的热门内容: