未来智讯 > 人脸语音识别论文 > 基于NAQ的语音情感识别研讨

基于NAQ的语音情感识别研讨

发布时间:2018-11-28 01:06:04 文章来源:未来智讯    
    基于NAQ的语音情感识别研讨作者:未知   (1. 西北工业大学 计算机学院, 西安 710072; 2. 海军兵种指挥学院 作战指挥系, 广州 510430)   ��
    摘要:研讨了用迭代自适应逆滤波器估计声门激励的方法,以声门激励的时域参数归一化振幅商作为特征,对六种不同情感的连续语音,最初使用F-ratio规则判别其对情感的区分能力,然后运用混合高斯模型对语音情感进行建模和识别。选取eNTERFACE’05情感语音数据库中的语音,对照了以整句NAQ值作为特征和以元音段的NAQ值作为特征,以及主观感知的情感识别结果。实验证明元音段的NAQ值是一种具有判别力的语音情感特征。
  �す丶�词:迭代自适应逆滤波; 归一化振幅商; F-ratio规则; 混合高斯模型
  �ぶ型挤掷嗪牛�TP391.42文献标志码:A
  文章编号:1001-�B3695(2008)11-�B3243-�B03
  ��
  Emotion recognition based on normalized amplitude quotient
  ��
  BAI Jie��1,2, JIANG Dong-mei��1, XIE Lei��1, FU Zhong-hua��1, REN Cui-hong��1
   (1.School of Computer Science, Northwestern Polytechnical University, Xi’an 710072, China; 2. Dept. of Tactical Command, Naval Arm Servers Command Acdemy, Guangzhou 510430, China)
  ��
  Abstract:This paper described a new time-domain parameter of the glottal flow, the normalized amplitude quotient and iterative adaptive inverse filtering. Six emotional speech coming from the eNTERFACE’05 audio-visual emotion database are inverse filtered using IAIF to estimate the glottal flow and parameterized using NAQ. To evaluate the properties of the emotion features based on the NAQ values of the vowel segments and of the whole speech sentences, firstly, gave F-ratio criterion to measure their ability to distinguish different emotions. Then, used the NAQ features to train the Gaussian mixture models for each speech emotional state, and compared emotion recognition results with subjective emotion perception results. Experimental results show that NAQ value of vowel segments can be used as an effective emotion feature in emotion recognition from speech.
  ��Key words:IAIF(iterative adaptive inverse filtering); NAQ(normalized amplitude quotient); F-ratio criterion; GMM(Gaussian mixture models)
  �お�
  0引言��
  语音情感识别研讨在近几年得到了快速发展。针对语音的何种特征能够有效体现出情感,学者们进行了大量的研讨,主要集中在基于韵律的特征和基于基频的特征两方面。然而如何提取对说话人、训练语音库等更具有鲁棒性的语音情感特征,还需要作进一步的研讨。��
  研讨证明,语音情感与音色(voice quality)是亲密相关的,或者说音色是语音情感的一种重要表现形式。文献[1]中通过共振峰合成器合成了breathy voice、creaky voice、harsh voice、lax-creaky voice、modal voice、tense voice、whispery voice七种音色由听者来判断。实验表明,不同的情感对应不同的音色,如生气的音色表现为tense和harsh voice,悲伤的音色为breathy voice,厌恶的音色为creaky voice,害怕的音色表现为whispery和breathy voice。因此提取基于音色的特征将有利于情感判别。��
  对于音色的定量分析主要依据声门激励的特性。逆滤波提供了非入侵的方法来估计语音的声门激励。有很多对声门激励的量化参数,常用的时域参数[2]有声门开启比率(open quotient,OQ)、开启闭合速度比(speed quotient,SQ)和声门闭合比率(closing quotient,CQ),然而它们都需要用到声门开启和闭合时刻。由于声门开启与闭合霎时很难正确得到,这几个参数的实用性不是很强。文献[2]提出了新的声门时域参数NAQ。作为对声门闭合阶段参数化的方法,它选取经过逆滤波估计的声门激励波形的两个振幅域值来度量,并用基音周期进行归一化。实验表明NAQ参数比传统时域参数CQ对语音噪声和失真更鲁棒。文献[2,3]中说话者分辨用breathy、normal、pressed三种不同的发声类型发元音/a:/,计算其NAQ值,结果证明不同的音色对应不同的NAQ值,即NAQ值对音色的区分是有效的。进一步,文献[4,5]从neutral、sadness、joy、anger、tenderness五种情感的连续语音中提取元音/a:/的40 ms片段,进行逆滤波和计算NAQ参数。实验分析也证明NAQ参数对情感具有一定的区分能力,在语音情感识别中可作为一个可行的特征。然而由于文献[4,5]的实验中仅提取连续语音中单一元音的40 ms片段进行NAQ参数分析,对其在整句连续语音情感识别中的应用并没有作进一步的探讨。目前尚未看到国内外有将NAQ参数用在连续语音情感识别中的相关文献。本文初步探索了NAQ参数作为特征应用于语音情感识别的途径,取情感语音中所有元音段的NAQ值作为特征建立混合高斯模型,选取eNTERFACE’05[6]的听/视觉情感语音数据库,对六种情感anger、disgust、fear、happiness、sadness、surprise进行识别实验,并与以整句语音的NAQ值作为特征的识别结果进行了对照。结果证明使用语音中元音段的NAQ值作为特征能够得到较如意的情感识别率。��
  1基于NAQ的语音情感特征��
  1��1迭代自适应逆滤波器[7,8]��
  本文对语音信号选取IAIF进行逆滤波,它是一种从语音信号中提取声门激励的分析方法。其基本原理是:通过循环迭代地利用逆滤波技能,尽可能从原始语音信号中去除声门激励和口鼻辐射的效应,以便更精确地估计声道滤波器特性,从而尽可能从语音信号中去除声道滤波器效应,最后更精确地估计声门激励信号。IAIF流程如图1所示。��
  这种方法的运作在两个阶段(图1)内,第一个阶段为模块b)~f),产生声门激励的初步估计,被用来作为第二阶段g)~l)更正确估计声门激励的输入。其中DAP(discrete all-pole modelling,离散全集点模型)用来估计声道滤波器或声门激励的模型;s(n)为声压波,即原始语音信号;g(n)为输出,即估计的声门波;Hg1(z),Hvt1(z),Hg2(z)是转移函数。具体逆滤波的过程如下:��
  a)对语音信号高通滤波,以去除在录音期间被麦克风扭曲的低频波。高通滤波选取截止频率为60 Hz的线性FIR滤波器来实现。��
  b)对经过高通滤波处理的语音信号进行1阶DAP分析,用全零点滤波器表示,对语音信号中声门激励和唇辐射的综合影响进行初步估计,其转移函数由Hg1(z)表示。��
  c)对b)的结果进行逆滤波,消除激励信号和唇辐射的影响。��
  d)对c)的结果进行p阶DAP分析,获得一个声道滤波器模型,用Hvt1(z)表示。p一般取8~12,本实验中取11。��
  e)由d)得到的声道滤波器模型通过逆滤波器消除声道的影响。��
  f)对e)的输出进行积分,以消除唇辐射的影响,得到声门激励的初步估计。��
  g)对f)得到的声门激励信号进行g阶DAP分析,精确估计声门激励信号的模型,用Hg2(z)表示,g的值取4。��
  h)用激励信号模型对输入信号进行逆滤波,以消除估计声门激励的影响。��
  i)对上一步的输出求积分,以消除唇辐射的影响。��
  j)通过r阶的DAP分析,得到一个新的声道滤波器模型Hvt2(z)。r的值能够被调节,但常常与d)的p值相等。��
  k)利用j)得到的声道模型,通过逆滤波从输入信号消除声道的影响。��
  l)求积分以消除唇辐射的影响,得到对声门激励的最后估计g(n)。��
  实验中调节声道共振峰的数量和唇辐射的系数以获得最佳的声门波估计。共振峰的数量一般为8~14,唇辐射系数为0.97~1.0。图2为元音/a:/在生气情感下的原始语音信号波形及其经IAIF逆滤波后得到的声门激励信号。 ��
  1��2归一化振幅商[ 2]��
  振幅商(amplitude quotient,AQ)是用单一的数字值定量描述声源特征最有效的参数之一[9]。它被定义为声门波最大振幅与其相应一阶导数的最大负峰值之比[10]。��
  AQ=fac/dpeak(1)��
  其中:fac是声门脉冲的最大波峰值;dpeak是声门脉冲对应一阶导数的最大负峰值。��
  因为无须测量声门波开启或闭合的霎时时刻,AQ值对照容易得到。由于AQ的值依赖于信号的基频(F0),将AQ用基音周期归一化。文献[2]导出一个新的声源时域参数NAQ,去除了这种对基频的依赖性[5]。��
  NAQ=AQ/T=fac/(dpeak×T)(2)��
  其中T为基音周期。��
  图3给出了元音/a:/的一段经IAIF处理得到的声门激励与其对应的一阶导数波形。��
  图4~7分辨是元音o、e,爆破音p,清辅音s经IAIF逆滤波后的声门波形、对应的一阶导数波形及其NAQ值。由图中能够看出元音段NAQ值的变化对照平稳,而且不同元音段的NAQ值对照接近;爆破音p只求出了两个NAQ值;而清辅音s的激励类似于白噪声,其求出的NAQ值也具有很大的随机性。因此,如果选取整个语句中的所有辅音和元音段的NAQ值作为情感特征,这种特征的分布将会对照发散,由语音单元不同引起的NAQ值变化,将会超出由情感引起的变化。由此可见语音情感特征不宜选取整个语句的NAQ值。��
  本文只选取元音段的NAQ值作为语音情感特征。��
  2F-ratio规则��
  为了更直接地评价NAQ参数对不同情感的区别能力,本文选取一种广义F-ratio测度规则[11]。定义如下:��
  Sw=1/I∑Ii=1∑Jj=1(Mij-Mj)��2(3)��
  Sb=1/I∑Ii=1(Mi-Mo)��2(4)��
  F-ratio=Sb/Sw(5)��
  其中:Mij为第i类情感语音中元音段NAQ值的第j个特征值;Mo为所有情感语音中元音段的NAQ均值;Mi为第i类情感语音中元音段的NAQ均值;Sw为第i类情感语音中元音段的NAQ值的方差;Sb为所有情感语音中元音段的NAQ值的方差。F-ratio的值越大,说明参加计算的各类情感间的区别效果越好。��
  3基于GMM的语音情感识别��
  本文选取声门时域参数NAQ值为特征,用GMM为情感建模。GMM为高斯几率密度函数的一个线性组合,只要有足够多数目的高斯几率密度函数就能够逼近任意一种密度函数。这里选择八个高斯几率密度函数。bi(x)为特征矢量x对于第i个高斯的几率密度函数:��
  bi(x)=1/[(2π)��D/2|��i|��1/2]exp ((x-ui)∑-1i(x-ui))/2��(i=1,…,8)(6)��
  其中:x表示D维NAQ特征值;ui、��i是第i个高斯分量的均值和方差;D是特征矢量的维数,此处D=1。x在GMM下的似然度为��
  p(x|λ)=∑8i=1wibi(x)(7)��
  其中:wi(i=1,…,8)是权重系数,需满足∑8i=1wi=1。��
  在训练时,对每种情感模型的参数λ=[u,��,w]进行初始化,分辨对每种情感的所有NAQ特征用K-means聚类算法进行聚类,得到中心向量u=(u1,…,u8)作为均值u的初始值,并计算其方差��i,作为��=(��1,…,��8)的初始值,权重定为wi=1/8(i=1,…,8)。��
  使用期望最大化(expectation-maximization,EM)算法在迭代中改善GMM模型的参数估计,在每次迭代中增加模型估计λ与观测特征矢量的匹配几率,即每次迭代有p(X|λ��k+1)>p(X|λ��k),k是迭代次数。这样迭代运算直到模型收敛。��
  识别时,计算输入语音的NAQ特征在每个情感模型下产生的几率,找出几率最大者,其对应的情感便是识别结果。��
  4识别实验与分析��
  4��1情感数据样本��
  实验数据选取eNTERFACE’05听/视觉情感语音数据库[6]中的语音,它包含anger、disgust、fear、happiness、sadness、surprise六种情感,由来自14个不同国家的42个说话人录制,使用英语,每种情感由每个人的5句话来表达。本文用Cooledit从视频文件中提取16 kHz、16位、单声道的音频用于实验。为了提高实验的可靠性,从每种情感中挑出表达效果好的100句用于GMM训练,另外抉择出30句作为识别语句。还对识别数据进行情感感知评估实验,在未知原始语音感情的状况下将识别语句随机分给三位同学进行主观感知识别。��
  最初针对所有的训练语句选取语音处理工具包HTK[12],在用TIMIT标准语音语料库训练的三音素模型的基础上,进行音素的强迫对准,并对元音段进行切分。因为存在元音与辅音的过渡段,为了保证提取的元音段的可靠性,对每段元音仅取其四分之一至四分之三局部。本文实验共分为两局部:a)六种情感分辨两两之间以NAQ值作为特征计算F-ratio值;b)对各种情感以NAQ值作为特征,使用GMM模型进行训练和识别实验。两局部实验分辨都以整句语音的NAQ值和元音段的NAQ值作为特征进行对照。��
  4��2F-ratio值对照��
  选取情感语音中元音段的NAQ值作为特征,针对六种情感分辨计算两种情感之间的F-ratio值。图8~13是anger、disgust、fear、happiness、sadness、surprise分辨与其他各种情感间以元音段的NAQ值为特征和以整句的NAQ值为特征计算的F-ratio值的对照结果。从图中能够看出,以元音段的NAQ值为特征计算的F-ratio值大局部都明显大于以整句NAQ值为特征计算的F-ratio值,说明以元音段的NAQ值作为特征对情感有更强的区分力。��
  4��3语音情感识别结果��
  表1是以元音段NAQ值为特征和以整句NAQ值为特征的情感识别结果,以及情感感知实验结果。对照以元音段的NAQ值为特征和以整句的NAQ值为特征的情感识别结果,除了disgust外,识别率都是63.3%无变化;happiness在以元音段的NAQ值为特征的情感识别中识别率为0,而在以整句的NAQ值为特征的情感识别中识别率为3.3%,稍有降落;其他情感的识别中仅用元音段特征比用整句NAQ特征的识别率都有明显的提高,尤其surprise的识别率由整句特征的3.3%提高到40%。这说明仅以元音段的NAQ值为特征的情感识别效果明显高于以整句NAQ值为特征的情感识别效果。在感知实验中,情感语音数据库完全选取国外的,由于生活习惯以及文化差异,中外对情感的认知也存在差异,对fear、surprise感知实验的准确识别率也只达到63.3%。对照基于元音段NAQ特征和GMM的情感识别和感知实验,少数情感的识别率已经对照接近,但大局部情感的识别率还有一定的差距,这是因为只选取了NAQ值这个一维特征。��
  表1GMM识别结果与感知实验识别结果对照%��
  识别结果angerdisgustfearhappinesssadnesssurprise
  感知实验73.376.7639086.763.3
   元音段特征3063.356.704040
  整句特征26.763.3303.316.73.3
  5结束语��
  本文通过实验验证了将声源时域参数NAQ值作为情感识别的特征之一的可行性。情感识别实验结果证明,大局部以元音段的NAQ值为特征的情感识别率比以整句NAQ值为特征的情感识别率高,而且F-ratio的实验结果也证明,以元音段的NAQ值作为特征对情感有更强的区分力。当然本文仅用了NAQ值一维特征,识别结果还不是很理想。作为后续事务,本文将研讨NAQ参数联合基于基频的其他特征,选择更有效的特征集进行语音情感识别,期望得到更好的识别效果。��
  
  参考文献:��
  [1]GOBL C, CHASAIDE N. The role of voice quality in communicating emotion,mood and attitude[J].Speech Communication,2003,40:189-�B212. ��
  [2]ALKU P,B�FCKSTR�ZM T,VILKMAN E. Normalized amplitude quotient for parameterization of the glottal flow[J].Journal of the Acoustical Society of America,2002,112(2):701-�B710. ��
  [3]LEHTO L, AIRAS M, BJ�ZRKNER E,et al.Comparison of two inverse filtering methods in parameterization of the glottal closing phase characteristics in different phonation types[J].Journal Voice, 2007,21(2):138-�B150.��
  [4]AIRAS M, ALKU P. Emotions in short vowel segments:effects of the glottal flow as reflected by the normalized amplitude quotient[C]//Proc of Tutorial and Research Workshop, Affective Dialogue Systems. 2004:13-�B24. ��
  [5]AIRAS M, ALKU P.Emotions in vowel segments of continuous speech: analysis of the glottal flow using the normalized amplitude quotient[J].Phonetica,2006,63(1):26-�B46. ��
  [6]MARTIN O,KOTSIA I,MACQ B,et al.The eNTERFACE’05 audio-visual emotion database[C]//Proc of the 22nd International Confe-rence on Data Engineering Workshops. Washington:IEEE Computer Society, 2006:8-�B16. ��
  [7]ALKU P.Glottal wave analysis with pitch synchronous iterative adaptive inverse filtering[J].Speech Communication,1992,11(2-�B3):109-�B118.��
  [8]ALKU P, TIITINEN H, NRISTO NAATANEN R.A method for gene-rating natural-sounding speech stimuli for cognitive brain research[J].Clinical Neurophysiology,1999,110:1329-1333.��
  [9]FANT G. The voice source in connected speech[J].Speech Communication,1997,22(2-�B3):125-�B139.��
  [10]ALKU P, VILKMAN E. Amplitude domain quotient for characterization of the glottal volume velocity waveform estimated by inverse filtering[J].Speech Communication,1996,18(2):131-�B138. ��
  [11]蒋冬梅,赵荣椿.一种基于共振峰恢复和Mellim变换的非特定人语音特征提取方法[J].数据采集与处理,2001,16(1):58-�B62.��
  [12][EB/OL].http://htk.eng.cam.ac.uk.

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1128/48193/
 与本篇相关的热门内容: