未来智讯 > 人脸语音识别论文 > 基于基频特征的情感语音识别研讨

基于基频特征的情感语音识别研讨

发布时间:2018-11-27 01:06:05 文章来源:未来智讯    
    基于基频特征的情感语音识别研讨作者:未知   摘要:探索在不同的情感状态下的基音特征变化规律。通过对含有生气、高兴、悲伤情感语音信号进行分析,归纳了情感语音基频的变化规律,确定了用于情感识别的12维的基频的基本特征以及扩展特征,运用混合高斯模型进行情感识别,并作了识别实验,获得了较好的结果。��
  关键词:语音信号;基频;情感特征;情感识别��
  中图分类号:TP391.42文献标志码:A
  文章编号:1001-3695(2007)10-0101-03
  
  0引言��
  
  情感计算是近年来研讨的一个热门话题。让计算机带有情感,这是人工智能与人机交互追求的指标。关于对人类情感处理的研讨正在不时地深入之中,其中语音信号中的情感信息处理的研讨越来越受到人们的重视。��
  从语音信号中提取情感特征,判断说话人的喜怒哀乐,分析人的情感和语音信号的关系,不过刚刚兴起的研讨课题[1,2]。传统的语音识别着眼于语音词汇表达的正确性,忽略了包含在语音信号中的情感因素。本文从语音的基频特征起程,统计了不同情感下语音基频的变化规律,确定了基于基频的情感语音特征,最终用GMM进行建模和识别,对于语音情感识别作了初步探讨,取得了较好的效果。��
  
  1情感语音数据的采集��
  
  用于情感分析的语音信号是研讨事务开展的基础。在建立情感语音数据库时,事先从TIMIT数据库中选出一些句子,均分成四组,找在校的大学生分辨用四种不同的情感读,每人4组,每组25句。所选择的语句可以投入说话人的不同情感。如果所选择的语句对照中性或者说很难强加一定的感情,那必然对发音和识别均带来很大的困难,从而无法对照同一语句在各种不同情感状态下各种特征参数的不同之处。在录制完后,对所有的语音进行评估,对于不适合要求的句子要进行补录。��
  
  2情感语音特征的分析与采用��
  
  语音情感识别要解决的基本问题,是要找到情感与语音模式之间较好的对应关系。特别地,要寻找计算机能抽取和用来识别的特征。研讨证明基音频率是反映情感信息的重要特征[3]。本文使用基频的基本特征以及其扩展特征来进行情感识别。��
  2.1情感特征分析��
  通过对大量的情感语句的基频进行观察分析,得到这样的结论:对于同一个句子,不同情感状态下的基频变化是不同的,基频的构造特征也是不同的。如图1所示,它们是同一个句子分辨在四种情感状态下的基频曲线。本文选择整个句子基频的动态范围、均值、方差、最大值、最小值来作为基频的基本特征;基频斜率的最大值、最小值、均值作为基频的扩展特征。��
  考虑到对于每一句话,说话者所传输的情感不是均匀分布的,而是着重地强调其中的某一个或某一些单词。通过用语音分析工具sfs软件对400句的情感语句信号的基频进行观察分析,归纳了情感语句信号前端基频变化的一些统计规律,便是生气句子基频曲线的前端上升再降落所占的比例最大为46%;高兴句子前端的基频上升或者上升再降落所占的比例较大,分辨为30%和52%;中性句子前端的基频中保持或者上升再降落所占的比例较大,分辨为29%和36%;悲伤句子前端的基频保持或者降落再上升所占的比例较大,分辨为37%和22%。表1为统计结果。��
  
  由表1能够看出,在基频曲线的前端,悲伤时的语音基频大局部是持平的,而其他三种情感的基频基本集中在上升又降落上。因此,基频曲线前端的斜率应该是判别悲伤情感的有效特征之一。��
  综合观察分析的结果,选择基频的基本特征以及扩展特征,共12维的基频特征,如下所示:��
  a)基频的均值、方差、动态变化范围;��
  b)前端局部基频的上升和降落斜率;��
  c)整个句子基频的上升局部斜率的最大值、均值,降落局部斜率的最大值、均值;��
  d)整个句子基频斜率的动态范围、均值、方差。��
  情感语音特征如表2、3所示。��
  
  从表2、3可见,对于生气的感情来说,其基频变化范围和方差值明显要比其他情感大,然而其他特征的变化不是很明显,因此必须对同一种情感下的大量语句的情感特征进行统计,利用各个特征的统计特性进行建模和识别。��
  2.2情感特征的提取��
  为了分析情感语音信号的基频变化情况,先求出情感语句的基频。在不同情感状态下语音信号、基频的动态变化范围很宽,所以选取最常用的短时自相关法进行基频追踪时,对于情感剧烈变化的语音,基频估计往往出现误差。在这里选取基于多相滤波器组的语音基频检测方法[7],运用多相滤波器组分解语音信号频谱;然后利用声带震动的能量准周期性在各个子带进行峰值搜索,并综合这些子带的搜索结果计算基音周期;再利用中值滤波对其进行一些平滑后处理。��
  对于处理后整个句子的基频计算其均值、方差、动态范围。��
  在前端基频斜率的计算前,先确定要处理的前端局部。在这里确定最前面的一个稳定发音的基频为处理对象。将前端基频连续的一段取出,计算其相邻的基频之差来作为斜率值。这里的前端局部取的是句子最前面的一个稳定发音的基频。��
  在计算整个句子基频上升和降落局部斜率的最大值、均值以及动态范围和方差时,先把整个句子的基频分成连续基频存在的几段;然后对每段相邻的两个基频差值计算其斜率,取出正的最大值,即为当前这一小段的上升斜率的最大值,同理,负的最小值为降落局部斜率的最大值。每段处理完毕后,记录其上升和降落局部的斜率,以及上升和降落局部的起始与终止的位置。对这个句子的所有基频连续存在的段进行对照,找出整个句子上升、降落斜率的最值。��
  
  3情感识别模型��
  
  情感识别的方法有主分量分析、人工神经网络、支持向量机、隐马尔科夫模型[5~7]等。本文选取混合高斯模型。
  
  4情感语音识别实验��
  
  4.1识别实验��
  为了保证实验数据的科学性,通过主观评价来检验数据的有效性,下面是感知实验。��
  实验过程:本文选了4个人4种表情,每种表情25句话共400句,在实验室8名同学的协助下完成了该实验。每人识别50句话,这50句话是随机分的,在实验前同学们都不知道语句的意思和感情,不过凭主观感觉去识别。表1中,横坐标是要识别的感情,纵坐标是被识别成的感情,从实验结果中可看出,anger\neutral\sad的准确识别率分辨为82%、94%、86%,happy的准确识别率差一些,惟有48%。这就能够看出,用happy实验数据不科学;anger和sad的情感语句有很强的情感倾向性,还是对照科学的;neutral的识别率最高。��
  实验数据选取4种感情共100句话,其中每种感情25句,分辨让4名录音者进行录制,构成400句带有情感的语音数据。为保证实验数据的科学性,针对录制的语音数据,通过感知实验来主观评价数据的有效性。本文选定8个感知实验者,在未知原始语音感情的情况下,每个实验者针对随机分配的50句录音数据进行主观感知识别。��
  感知实验统计结果如表4所示。从表4中能够看出,anger\neutral\sad的准确识别率分辨为82%、94%、86%,happy的准确识别率差一些,为80%。从实验统计结果来看,基性能够保证试验用情感数据的有效性。试验结果如表5所示。��
  4.2实验结果分析与归纳��
  从表5可看出,neutral\sad的识别率较高,anger\happy的识别率稍差。从表中还能够看出,anger\happy误识率最高,anger\neutral和neutral\sad的误识率也较高。这与感知实验的结果基本吻合。这证明大局部的情感均被准确地识别,特别是neutral\sad,而anger\happy对照容易混淆,这一方面与情感表达是否强烈有关,因为主观测评证明,即使是找人来听语音判断情感,准确的识别率也只可在80%左右。但主要原因与所选择的特征集有关。考察各个特征对情感识别作的贡献,找出能够进一步区分四种情感的有效的特征集,选择更加有效的特征集以及更加科学的识别方法是今后事务的重点。��
  
  参考文献:��
  [1]FOTINEA S E,BAKAMIDIS S,ATHANASELIS T,��et al.��Emotion in speech:towards an integration of linguistic, paralinguistic, and psychological analysis[C]//Proc of International Conference on Spoken Language Processing.Berlin,Heidelberg:Springer��Verlag,2003:1125��1132.��
  [2]JIANG Dan��ning,CAI Lian��hong.Speech emotion classification with the combination of statistic features and temporal features[C]//Proc of ICME.2004:1967��1970.��
  [3]MERAL H M,EKENEL H K,OZSOY A S.Role of intonation patterns in convering emotion in speech[C]//Proc of International Conference on Phonetic Sciences.San Francisco:USA Murray, I.R,1999:2001-2004.��
  [4]付中华,赵荣椿,蒋冬梅.基于多相滤波器组的语音基频检测算法[J].西北工业大学学报,2003,21(5):603-605.��
  [5]VERVERIDIS D,KOTROPOULOS C,PITAS I.Automatic emotional speech classification[C]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing.2004:593-596.��
  [6]CHUANG Ze��jing,WU C H.IG��based feature extraction and compensation for emotion recognition from speech[C]//Proc of Affective Comuting and Intelligent(ACII).Berlin:Springer��Verlag,2005:358-363.��
  [7]VALERY A P.Emotion recognition in speech signal:experimental study,development, and application[C]//Proc of International Conference on Spoken Language Processing.2000:222-225.
  
  “本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1127/47736/
 与本篇相关的热门内容: