未来智讯 > 人脸语音识别论文 > 基于BP神经网络的语音情感识别研讨

基于BP神经网络的语音情感识别研讨

发布时间:2018-11-27 01:06:05 文章来源:未来智讯    
    基于BP神经网络的语音情感识别研讨作者:未知   摘要:随着科技的迅速发展,人机交互越来越受到人们的重视,语音情感识别更是学术界研讨的热点。将BP神经网络算法用于语音情感识别研讨,并在汉语情感数据集长进行了相关实验,识别的正确率达到了91.5%,相较于SVM算法分类精度提高了5%。
  关键词关键词:语音情感识别;BP神经网络;SVM
  中图分类号:TP302
  文献标识码:A 文章编号文章编号:16727800(2014)004001103
  作者简介作者简介:徐照松(1990-),男,广西师范学院计算机与信息工程学院硕士研讨生,研讨方向为数据挖掘、语音情感、智能计算;元建(1986-),男,广西师范学院计算机与信息工程学院硕士研讨生,研讨方向为数据挖掘、智能计算。
  0 引言
  随着科技的迅速发展,人机交互显得尤为重要。语音是语言的载体,是人与人之间交流的重要媒介。相较于其它交流方式而言,语音交流更加直接、便捷。近年来,随着人机交互研讨的不时深入,语音情感识别更成为了学术界研讨的热点,其涉及到信号处理、模式识别、人工智能等相关领域。语音中除了可以传达语义信息外,还包含了一些情感信息,但是这些情感信息往往被人们所忽略[3]。语音情感识别实际上是利用计算机所提取的语音信号特征来判断其属于哪一类情感。利用模式识别方法研讨语音情感识别的文献较多,朱菊霞[4]等使用SVM算法对语音情感进行识别,并取得了86%的识别率。余华[5]等使用粒子群算法优化神经网络来进行语音情感识别,识别率较高。BP神经网络是神经网络的一种,属于多层前馈神经网络,与其它神经网络算法所不同的是选取了反向传播的学习算法,不时地计算输出端的误差向回传递来进行权值调整,从而达到误差最小的效果。文中联合了BP神经网络的优点,将其用于语音情感识别研讨中,并且在汉语情感数据集长进行了相关实验,识别的正确率达到了91.5%,相较于其它方法提高了5%。
  1 BP神经网络
  BP神经网络算法由Rumelhart[6]等于1988年提出,
  它是一种用于前向神经网络学习训练的误差反向传播算法,简称BP算法。它是前向神经网络的核心和精华局部,因其网络结构容易构造,对输入的数据没有特别要求,同时相关理论的研讨也已经成熟,因而已经被广泛地应用于模式识别中。目前,人工神经网络中研讨最多的便是BP神经网络及其改进算法。该网络同样由输入层、隐含层、输出层组成,典型的BP神经网络如图1所示。
  图1 典型的BP神经网络结构
  该算法主要由两个阶段组成,分辨是正向传播过程和误差的反向传播过程。正向传播过程是指输入特征向量,经过输入层、隐含层和输出层逐层计算权值。误差的反向传播过程是指输出层计算出误差之后,再由输出层传到输入层来进行权值调整。一个标准的BP神经网络流程如图2所示。
  图2 BP神经网络流程
  (1)正向传播过程。从样本数据集中选择一个样本Xi,将其输入到神经网络,并计算其实际输出Yi。该过程便是数据样本从输入层输入,然后经过隐含层和输出层的逐层计算,得到的输出结果。
  (2)误差的反向传播过程。计算实际输出Yi与理想的输出结果Ai之间的误差,根据相应的准则不时地调整权值,并对BP神经网络进行不时训练使得误差可以满足要求。
  2 语音情感特征
  如何选择有效的语音情感特征,直接影响到语音情感识别结果的好坏。最初要明确研讨哪几类情感,从心理学的角度来看,总共包括以下7类情感,即高兴、生气、悲伤、害怕、惊讶、厌恶、中性。本文主要研讨生气、高兴、悲伤和惊讶这四类情感。目前,很多研讨中都是把语音情感识别问题转化为模式识别问题进行研讨。其性子便是先对语音信号特征进行预处理,再提取相关特征,从而进行分类。采用语音持续时间、短时能量、基音频率、共振峰和MFCC等语音信号特征进行相关研讨。
  2.1 语音持续时间
  语音持续时间实际上便是说话过程中所持续的时间,其往往与所表达的情感有着直接的关联。一般来说,人生气时说话速度较快,语音持续时间较短;而处于悲伤或者害怕时说话的语速就会较慢,语音持续时间较长。因此,选择带有情感的语音持续时间与正常状态下的语音持续时间的比值作为一个特征参数。
  2.2 短时能量
  短时能量直接反映了声音音量的大小。一般来说,清音的能量较小,浊音的能量较高。当一个人的情感为生气或者是惊讶的时候,其说话的音量就会变大,短时能量往往也对照高。当一个人的情感为害怕或者悲伤的时候,说话的音量就会变低,短时能量往往也对照低。因此,本文选择短时能量的均值、最大值、最小值、变化范围这4个特征参数。
  2.3 基音频率
  基音频率简称基频,它直接反映了声道的特征,已经在多个领域被广泛应用,如语音识别、语音合成等。一般来说,男性的基频较低,女性的基频较高。不同情感状态下基频的大小不同。相关研讨证明,生气、高兴和惊讶时的基频变化范围和均值较高,相反悲伤时基频的均值和变化范围较小。因此,本文采用了基频的均值、最大值、最小值和变化范围这4个特征参数。
  2.4 共振峰
  共振峰指发声的气流经过声道时,与声道发生共振的频率。其与情感有着很大的关联,情感状态不同,共振峰频率也随之发生变化。目前,大多数的研讨都是利用线性预测法来提取语音信号中的共振峰频率。共振峰参数的选择对语音情感识别有着重要意义。因此,本文采用第一共振峰频率的均值、第二共振峰频率的均值、第三共振峰频率的均值和第四共振峰频率的均值作为特征参数。
  2.5 MFCC
  即就是同一句话,同一个人在不同的情感状态下说出来也是不一样的,让听者听起来感觉更是不一样。MFCC是梅尔频率倒谱系数的简称,它是模拟人耳听觉特性所提取的特征参数,已经被广泛应用于语音识别和语音合成的研讨中。因而采用12维MFCC均值作为特征参数。   3 实验结果与分析
  实验数据来源于中科院自动化研讨所的汉语情感语料库[7],该数据是由4名专业的发音人在6种不同的情感状态下发音,已经被广泛应用于语音情感识别的研讨中。采用其中的生气、高兴、悲伤和惊讶这4类情感共800条语句进行研讨,中脾气感的200条语句作为计算语音持续时间使用。文中选取了BP神经网络算法,共提取了25维的语音信号特征,因此,输入层有25个节点,隐含层有25个节点,输出层有4个节点。实验从800条语句中采用600条语句作为训练数据,200条作为测试数据。在MATLAB2009b和内存4G平台长进行了仿真实验。把准确预测的实例数与预测的实例总额的比值称为识别率,如公式(1)所示。实验结果如表1所示。
  从表1中能够看出,识别精度对照理想,识别率均达到85%以上。高兴和悲伤情感的识别率较高,可能是特征之间的差异较为明显,而生气和惊讶的识别率稍低,特征之间不易区分。此外,BP神经网络算法的平均识别率达到了91.5%,相较于SVM算法分类精度提高了5%。
  4 结语
  本文将BP神经网络算法用于语音情感识别的研讨中,并且在汉语情感数据集长进行了仿真实验,取得了较好的识别效果,相较于SVM算法识别精度提高了5%。在下一步的研讨中,一方面能够联合其它语音信号特征来提高识别精度;另一方面还能够用一些新的模式识别方法来进行相关研讨。
  参考文献:
  [1] 赵力,钱向民,邹采荣,等.语音信号中的情感识别研讨[J].软件学报,2001,12(7):1050.
  [2] S WIETHOFF, D WILDGRUBER, W GRODD,et al. Response and habituation of the amygdala during processing of emotional prosody[R].Neuroreport, 2009,20(15):1356.
  [3] 张石清,李乐民,赵知劲.人机交互中的语音情感识别研讨进展[J].电路与系统学报,2013,18(2):440451.
  [4] 朱菊霞,吴小培,吕钊.基于SVM的语音情感识别算法[J].计算机系统用,2011,5 (11):238242.
  [5] 余华,黄程伟,赵力.基于粒子群优化神经网络的语�鹎楦惺侗�[J].数据�集与处理,2011,26(1):632635.
  [6] FRANCESCO BERITELLI,SALVATORECASALE, SALVATORESERRANO. Speeeh emotion recognition using mfccs extraeted from a mobile tennlnal based on etsifront end[C].ICSP Proeeedings,2006.
  [7] 中科院自动化研讨所人机语音交互课题组.Casia汉语情感语料库[EB/OL].http: //www.datatang.com / data /39277,2012.
  [8] 王小川,史峰,李洋,等.Matlab神经网络43个案例分析[M].北京:北京航空航天大学出版社,2013.
  [9] 何亮.基于神经网络的语音情感识别[D].温州:温州大学,2011.
  [10] 黄锋,尹俊勋.一种基于GMM模型的语音情感识别方法[J].微计算机信息,2009,8(10):270271.
  [11] H LEVIN,W LORD.Speech pitch frequency as an emotional state indicator[C].IEEE Transactions,2010(2):259273.
  [12] 张石清,赵知劲,雷必成.联合音质特征和韵律特征的语音情感识别[J].电路与系统学报, 2009,14(4):120123.
  (责任编辑:孙 娟)
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1127/47738/
 与本篇相关的热门内容: