未来智讯 > 人脸语音识别论文 > 语音情感识别研讨进展

语音情感识别研讨进展

发布时间:2018-11-22 01:06:05 文章来源:未来智讯    
    语音情感识别研讨进展作者:未知   摘要:语音信号中包含着丰富的情感信息,通过对语言信号的分析来识别人的情感是当前一个十分活跃的研讨课题。最初介绍了国内外语音情感识别的研讨现状,然后分析了语音情感识别研讨的关键理论与技能,最终在此基础长进行了归纳并概述了语音情感识别研讨领域的发展趋势。
  关键词:情感识别;语音信号;情感计算
  中图分类号:TN912.34文献标识码:A文章编号:1007-9599 (2010) 01-0001-03
  
  一、引言
  
  人类通过语言来交流,在语音中不但有语义信息,还包含丰富的情感信息。语音情感识别便是从语音信号中识别出说话人的情感信息,比如“喜、怒、哀、乐”等,有着广泛的应用前景。比如,用于自动远程电话服务中心,准时发现客户的不满情绪[1];用于远程教学和婴儿教育,准时识别学生的情绪并做出适当的处理,从而提高教学质量;也能够用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及辅助测谎[2]等。
  本文主要从情感的分类、情感语音库的建立、语音信号的情感特征提取、语音情感识别方法等方面来介绍语音情感识别的研讨进展。
  
  二、语音情感识别的研讨现状
  
  在1972年,Williams发现人的情感变化对语音的基音轮廓有很大的影响,这是国外最早开展的语音情感方面的研讨之一。1990年,麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样,如人的语音信号、脸部表情信号等来识别各种情感[3]。1996年日本东京Seikei大学提出情感空间的观念并建立了语音情感模型。2000年,Maribor大学的Vladimir Hozjan研讨了基于多种语言的语音情感识别[4]。2009年4月,日本家当技能综合研讨所(AIST)研制一个具有丰富表情的新型女性机器人“HRP-4C”。通过对主人语音信号的识别,机器人能够做出喜、怒、哀、乐和惊讶的表情等[5]。
  在国内,语音情感识别的研讨起步较晚。2001年,东南大学赵力等人提出语音信号中的情感识别研讨[6]。2003年,北京科技大学谷学静等人将BDI Agent技能应用与情感机器人的语音识别技能研讨中。另外,2003年12月中科院自动化所等单位在北京主办了第一届中国情感计算及智能交互学术会议,2005年10月又在北京主办了首届国际情感计算及智能交互学术会议[7]。
  
  三、语音情感识别研讨的关键技能
  
  (一)情感的分类
  人类的情感是非常复杂的,常见的是喜、怒、哀、乐等。目前语音情感识别研讨中对于情感的分类没有一个统一的标准,研讨者一般针对研讨对象而做出不同的分类。使用较多的是四种基本情感类型:愤怒、高兴、悲伤、惊奇。在心理学领域被普遍接受的是Robert Plutchik教授提出的八种原型情感模型,八种情感为:恐惧、惊奇、悲伤、厌恶、愤怒、期望、高兴、接受。对于情感的分类,研讨者始终没有达成共识,美国学者Ortony[8]对不同研讨者的观点进行了总结和整理,如表1所示。
  表1 不同的情感分类
  Tab.1Different Emotion Classification
  (二)情感语音库的建立
  情感语音库是语音情感识别研讨的基础,如何建立一个有效的情感语音库对于提高语音情感识别率具有重要影响。语音库的建立大体上分为三种形式。第一种数据库来自专业或业余演员的演出,朗读预先筹备的句子或段落。由于这种方法操作大略,目前大局部情感语音数据库都是用这种方法获得的。第二种数据库是让录音者置身于一个虚拟场景,从虚拟环境中诱引出语音。第三种数据库来自现实生活,是人们在现实生活中表现出最真实情感的语音,但要用这种方法获得情感语音数据库相当困难[7]。
  用三种方法获取的数据库其自然度各不相同,文献[9]通过试验发现,在使用同样特征参数的情况下,用不同方法获得的数据库其情感识别率不同。Batliner等人使用线性判别分析(LDA)法联合韵律特征,对三种不同自然度的情感语音数据库进行了分类试验,结果证明,情感语音的自然度越高,识别率越低[1]。
  (三)语音信号的情感特征提取
  基于心理学和韵律学研讨的结果,说话者的情感在语音中最直观的表现便是韵律特征和语音质量的变化。因此对语音情感识别的研讨普遍从韵律特征和音质特征起初,尤其是韵律特征,被认为是最主要的语音情感特征[10]。研讨中选取窗长23.22ms(256点),窗移10ms的汉明窗,采用时间、基频、能量、振幅、共振峰等特征参数作为情感识别用参数。
  1.语音持续时间
  计算每一情感语音从起初到结束的持续时间。提取持续时间时应包括无声局部,因为无声局部对情感是有贡献的。
  2.基音频率
  基音是指物体振动时所发出频率最低的音,利用倒谱法逐帧计算出基音频率,考虑到可能产生检测错误,因此对结果进行中值滤波和线性平滑处理[11]。能够采用平均基音频率,最大基音频率、基音频率的平均变化率等参数用于情感识别。
  3.语音信号的能量[12]
  由于语音信号的能量随时间变化,清音和浊音间的能量差别非常显著,因此对短时能量进行分析,能够描述语音的清浊音变化情况。短时能量定义为
  式1中,汉明窗函数ω(n)平方的物理含义是一个冲激响应为ω(n)2的滤波器。最初求出语音信号各样本点值的平方,然后样点通过滤波器输出由短时能量构成的时间序列。选取窗长N=23.22ms(256点),在满足对语音振幅霎时变化的细节进行了有效平滑的前提下,保证了短时能量的明显变化。识别时能够将情感语音短时能量变化率和有声局部平均短时能量作为特征参数。
  4.语音信号的振幅
  信号的振幅特征与各种情感信息具有较强的相关性。短时能量函数存在对信号电平值过于敏感的问题,可通过平均振幅函数来衡量语音幅度的变化,其定义为
  式2能够理解为窗函数ω(n)对信号进行了线性滤波运算。与短时能量对照,短时平均振幅用绝对值之和代替了平方和,简化了运算。由于振幅的霎时最大值很难屏蔽掉一些干扰导致的突变,那么取得的值将是不正确的。因此,能够采用从发音起初到结束之间的平均振幅的最大值作为最大振幅,同时提取振幅平均变化率作为参数用于语音情感识别。
  5.共振峰
  共振峰是反映声道特性的一个重要参数,因为不同情感的发音可能使声道有不同的变化,所以可以预料到不同情感发音的共振峰的位置不同。本文最初用线性预测法求出预测系数,然后用预测系数估计出声道的频响曲线,再用峰值检出法计算出各共振峰的频率[13]。能够采用共振峰频率的平均值、共振峰频率的平均变化率、共振峰峰值点回归直线的平均斜率以及共振峰峰值的平均值等作为识别用特征参数。
  (四)语音情感识别方法
  1.基于隐马尔可夫模型的识别方法
  隐马尔可夫模型可用下面三个模型参数来定义,即λ=(π,A,B)[14]。其中A为状态转移几率的聚集,B为输出观测值几率的聚集,π为系统初始状态几率的聚集。
  根据HMM模型,对于一个含有V种情感状态语音,每个情感状态有K个语音样本的待识别语音库进行语音情感识别,要完成以下事务[15]:
  (1)对于每个情感状态V,要建立对应的隐马尔可夫模型λv= (π,A,B)。
  Fig.1 The state transition diagram for HMM
  (2)对于任何一个待识别的语音样本,执行图1中所示的步骤,在图1中aij是状态转移矩阵A中的元素,bj(0)是分布矩阵B的列向量。最初通过特征提取得到待识别单词的观测矢量序列O;随后通过Viterbi算法对每个模型计算其匹配得分;最终选择匹配得分最高的模型作为识别结果,即:
  2.基于高斯混合模型的识别方法
  高斯混合模型[16]是惟有一个状态的模型,在这个状态里具有多个高斯分布函数。
  其中fi是一个高斯分布函数,不同高斯分布之间的加权系数ωi满足条件:
  在训练时最初利用矢量量化(VQ)抽样各类情感中有效主元矢量集的码本,并对每个码字求出相应的方差,这样每个码字和相应的方差就能够组成一个高斯分布函数。在识别时,对于某种情感主元特征矢量Y 求相对于每个情感类别的几率值,几率最大的为识别结果。
  3.基于人工神经网络的识别方法
  人工神经网络具有良好的自学习、自组织、较好的容错性和优良的非线性逼近能力,文献[17]证明,同其他的识别模型对照,神经网络的方法在语音情感识别方面有着较好的效果。
  T.Yamada等[18]将情感分为悲伤、兴奋、欢乐和愤怒,然后将神经网络应用于语音情感识别中。对于这些基本的人类情感,运用神经网络能够达到70%的识别率。在2003年,K.H.Kim[19]等人就选取了自适应神经网络对语音情感状态进行了研讨。在他们的研讨中,除了选取传统的语音特征外,还联合了发音时的一些生理特征参数(如心跳、心电图等)进行训练和识别,也达到了70%左右的识别率。2004年,浙江大学的王青[20]对输入的特征矢量及神经网络训练数据作了主成分分析,降低输入的特征矢量的维数,去除了冗余信息,选取三种类型的神经网络(OCON,ACON 和LVQ)识别汉语语音信号中的四大情感。
  4.其它识别方法
  Ververidis[21]等人使用了基于Parzen窗参数估计和高斯分布的两种贝叶斯分类算法,研讨了87种基于频谱、基音和能量的语音统计特征参数对五种情感状态的识别能力。
  Dellaert[22]等人对照了最大似然贝叶斯分类、核回归(kenel regression)、和KNN等三种方法的识别本能,结果KNN方法的识别本能最优。
  四、结束语
  对于语音情感识别的研讨还有很长的路要走。今后还需要进一步研讨情感模型的建立,改进语音情感识别算法并和有效的情感特征相联合等,以提高情感的识别率。另外,如何利用词义,联合面部表情或肢体动作等,在更高层次上把握说话人的情感是一个重要的研讨课题。
  
  参考文献:
  [1]Batliner A,Fischer K, Huber R, et al.How to Find Trouble in Communication[J].Speech Communication, 2003,40(1-2): 117-143.
  [2]Cowie R,Douglas-Cowie E, Tsapatsoulis N,et al.Emotion Recognition in Human Computer Interaction[J].IEEE Signal Processing magazine,2001,18(1):32-80.
  [3]S Chennoukh,A Gerrits,G Miet,R Sluijter. Speech Enhancement via Frequency Extension using Spectral Frequency[A]. Proc. ICASSP [C].Salt Lake City, 2001.5.
  [4]陈建厦.语音情感识别综述[A].第一届中国情感计算会议[C].北京,2003.
  [5]方恨少.日本新型女机器人HRP-4C会说话表情丰富[EB/OL]. http://info.china.alibaba.com/news/detail/v5000441- d1004571420.html,2009-3-16.
  [6]赵力,钱向民,邹采荣等.语音信号中的情感识别研讨[J].软件学报,2001,12(7):1050-1055.
  [7]林奕琳,韦岗,杨康才.语音情感识别的研讨进展[J].电路与系统学报,2007,12(1): 90-98.
  [8]Ortony A,Turner T J.(1990).What’s Basic about Basic Emotions. Psychological Review.1997,3:315-331.
  [9]Küstner D,Tato R,Kemp T,et al.Towards Real Life Applications in Emotion Recognition:Comparing Different Databases,Feature Sets,and Reinforcement Methods for Recognizing Emotions from Speech[A].In:Andr E,Dybkj L,Minker W, et al.,Editors. Affective Dialogue Systems,Tutorial and Research Workshop, Ads 2004, Kloster Irsee, Germany, 2004, Proceedings.Kloster Irsee,Germany:Springer, 2004,06:25-35.
  [10]Bhatti M W, Wang Y,Guan L. A Neural Network Approach for Human Emotion Recognition in Speech[A]. ISCAS’04[C]. 2004.181-184.
  [11]Zhao Li, Kobayashi Y, Niimi Y. Tone recognition of Chinese continuous speech using continuous HMMs[J]. Journal of the Acoustical Society of Japan, 1997, 53(12): 933~940.
  [12]詹永照,曹鹏.语音情感特征提取和识别的研讨与实现[J].江苏大学学报(自然科学版),2005,26(1):72-75.
  [13]周迪伟.计算机语音处理[M].北京:国防工业出版社,1987,130-146.
  [14]马静.基于HMM模型的汉语数字语音识别算法的研讨[D].太原理工大学,2008.
  [15]余伶俐,蔡自兴,陈明义.语音信号的情感特征分析与识别研讨综述[J].电路与系统学报,2007,12(4):76-84.
  [16]Tin Lay New,Say Wei Foo,Liyanage C De Silva. Speech Emotion Recognition Using Hidden Markov Models [J].Speech Communication,2003,41: 603-623.
  [17]Oudeyer Pierre-Yves.The Production and Recognition of Emotions in Speech:Features and Algorithms.International Journal of Human-Computer Studies.2003,59:157~183.
  [18]T.Yamada, H. Hashimoto,N. Tosa, Pattern Recognition of Emotion with Neural Network.Proceeding of the 1995 IEEE IECON 21st International Conference on Industrial Electronics,Control,and Instrumentation,Vol.1,pp 183-187,1995.
  [19]K.H.Kim,S.W.Bang,S.R.Kim.Emotion Recognition System Using Short-term Monitoring of Physiological Signals.Medical& Biological Engineering & Computing 2004,Vol.42:419-427.
  [20]王青.基于神经网络的汉语语音情感识别的研讨[D].浙江: 浙江大学论文集,2004-03.
  [21]Ververidis D,Kotropoulos C,Pitas I.Automatic Emotional Speech Classification[A].ICASSP’04[C].2004.593-596.
  [22]Dellaert F,Polzin T,Waibel A.Recognizing Emotion in Speech[A].ICSLP'96[C].1996.1970-1973.
  基金项目:国家863项目“家庭生活支援多机器人系统”(2007AA041604)
  作者简介:袁健(1985~),男,江苏人,硕士研讨生,研讨方向为语音情感识别、多媒体技能等。

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1122/45317/
 与本篇相关的热门内容: