未来智讯 > 人脸语音识别论文 > 语音情感识别中情感特征研讨进展

语音情感识别中情感特征研讨进展

发布时间:2018-11-28 01:06:04 文章来源:未来智讯    
    语音情感识别中情感特征研讨进展作者: 胡海翔   摘 要 近年来,随着人机交换技能的迅猛发展,语音情感识别引起了研讨者广泛的关注,特别是在语音情感特征提取方面,研讨者做了大量事务,取得了丰硕的成果。本文最初介绍了语音情感识别系统的模型,然后对情感识别中用到的语音情感特征进行了归纳分析,并对情感特征提取面临的问题进行了探讨。
  关键词 语音;情感特征;特征提取;情感识别
  中图分类号TP39 文献标识码 A 文章编号 1674-6708(2015)140-0223-01
  1 语音情感识别概括
  随着信息技能的飞速发展以及人机交互技能的不时进步,人们对计算机的要求越来越高,人们希望未来和计算机的交互能像人与人之间的交流一样,既方便,快捷,又具人性化。语音作为人类交流的主要工具之一,不但能传送语义内容,同时不同语气的发音还包含大量情感信息,因此如何让计算机从语音中识别出说话者的情感状态,成为了研讨热点,而语音情感识别辽阔的应用前景也引起了越来越多的研讨者的重视。语音情感识别不但能应用于人机交互系统,还能广泛的应用于远程网络教学、医疗辅助、反恐侦测,客户服务等领域[1]。
  语音情感识别的系统模型主要由3局部组成,即语音信号处理、情感特征的提取和语音情感识别。
  语音信号处理主要包含语音信号的采集、数字化、预处理、频谱提取等方面,它主要为下一步的特征提取做筹备;情感特征提取便是从处理好的语音数字信号中提取出能表征语音情感的特征向量;而情感识别则是通过选好的分类算法将情感特征向量进行分类从而达到识别的目的。其中,情感特征的提取是其中的重要环节,因为情感特征是语音信号内所含情感信息的抽象,它的好坏直接影响系统情感识别正确性。因此,本文主要对语音情感识别中情感特征的研讨现状进行分析归纳。
  2 语音情感特征研讨现状
  从1972年Williams发现人的情感变化对语音的基音轮廓有很大的影响,并将其用于语音情感识别的研讨起初到现在,经过四十多年的探索,语音情感特征的类型越来越丰富,语音情感识别的效果越来越好。但整体而言,目前用于语音情感识别的情感特征大致能够分为三种类型,即韵律特征、音质特征以及基于频谱的相关特征。这些特征一般相互融合以全局特征统计值的形式,如统计最大值、最小值、平均值、方差等参与情感识别。
  2.1 韵律特征
  韵律特征是指蕴含于语音之中但不同于语义内容的一类语音特征。它具体体现为音量的高低、发音的长短、语速的快慢、语气的轻重等,决定了讲话声音的抑扬顿挫,是对语音表达方式的一种结构性安排及补充。它的存在与否并不影响我们对字、词、句的听辨,但却与语音中蕴含的情感亲密相关。如当人愤怒时,说话语速明显加快、音量高、语气重;而悲伤时语调低沉、语速慢、音量小等。
  目前,最为常用的韵律特征主要有:基音频率、能量、时长等。Iliou等人研讨了德语情感语料库中的七种情感语音,提取了35维韵律特征,取得了约51%的情感识别率。Zhang等人以汉语情感语音库为研讨对象,提取了四种情感语音的韵律特征,得到了约76%的情感识别率。Wang等人也基于汉语情感语料库做了研讨,提取了六类情感语音的韵律特征,选取支持向量机做识别得到了约88%的平均情感识别率。
  韵律特征是语音情感识别中应用最早、使用最为广泛、并且情感区分能力已得到了研讨者一致认可的一类情感特征。
  2.2 音质特征
  音质特征是一类用来体现说话人语音是否清晰纯净、容易辨识的语音特征。人在不同情感状态下,其声音的质量会有很大不同,具体体现为:随情绪波动,人会不由自主的产生喘息、颤音、哽咽等。而在不同情感状态下,这些声学表现各不相同,因此,声音质量的变化蕴含有丰富的情感信息,提取音质特征有利于语音情感的识别。
  在语音情感识别中用于衡量声音质量的音质特征一般有:共振峰、呼吸喉化音和声门参数等。文献的研讨证明,语音情感与音质特征有很大关联性。R.Sun等将声门参数和基频、能量等韵律特征在情感识别中发挥的作用进行了对照。众多研讨表明,音质特征有利于语音情感的识别。
  2.3 基于频谱的特征
  频谱特征是语音情感识别中衍生种类最多,应用最为广泛的一类情感特征向量,它一般是通过模拟人的语音产生机制或听觉特性而提取,因此,情感区分效果较为理想,一直备受研讨者重视。如使用最为广泛的线性预测倒谱系数(LPCC),它是模拟了人的声道特性、声门激励特性而提取的特征参数;而梅尔频率倒谱系数(MFCC)则是模仿了人耳听觉特性。除了LPCC和MFCCC,还有一些新的频谱特征也用于语音情感识别,Yildirim等人将频谱能量特征与语音韵律特征相融合对四类英语情感语音进行识别,取得了75%的平均情感识别率。此外,随着信号处理技能的不时进步,一些基于频谱的新特征也被探索出来用于情感的识别,叶吉祥等[2]利用希尔伯特黄变换提取语音信号的边际能量谱特征用于情感识别也取得了不错的效果。
  3 情感特征提取中存在的问题
  只管经过几十年的不时发展以及研讨者的不懈努力,越来越多的新的情感特征被不时探索出来,对语音情感识别的研讨进展起到了巨大的推动作用,但情感特征的提取依然存在一些问题,主要表如今以下方面。
  1)语料库语种单一,提取的情感特征局限性较大。
  目前,用于语音情感识别的语料库大多语种单一,说话人及情感种类数量有限,提取出的情感特征受到了很大的局限,有些新的情感特征在一种语料库上的识别效果好,而在其他语料库情感识别上却波动较大,而现实环境更为复杂,它是一个动态的实时变化的语境。因此,为了使语音情感识别从理论走向应用,探索适用性强,识别效果稳定的情感特征依然需要更多的努力。
  2)情感强度相近的情感语音难以辨识。
  情感强度相近的语音由于在发音上具有相似的生理特性,如高兴语音和生气语音它们在发音上语速都较快,语音信号能量都较高,因此提取的情感特征参数都较为相似,这为情感的识别带来了困难。探索能较好区分相近情感强度的语音情感特征仍然是未来研讨者需要进一步努力的方向。
  4 结论
  语音情感识别是一门有辽阔应用前景的学科,经过几十年的发展,在局部领域,它已逐步从理论研讨走向了实际应用,只管我们已经取得了较大的成果,但是依然有一些亟待解决的问题。情感特征提取作为语音情感识别中的重要环节,它对情感的识别的正确性起着决定性作用,本文对目前情感识别中用到的情感特征进行了分析归纳,并对情感特征提取面临的问题进行了探讨,以期为下一步的研讨事务指明方向。
  参考文献
  [1]张永皋,马青玉,孙青.基于MFCC和CHMM技能的语音情感分析及其在教育中的应用研讨[J].南京师范大学学报,2009,9(2):89-92.
  [2]叶吉祥,胡海翔.Hilbert边际能量谱在语音情感识别中的应用[J].计算机工程与应用,2014(7).
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1128/48201/
 与本篇相关的热门内容: