未来智讯 > 人脸语音识别论文 > 机器狗情感语音识别技能的研讨

机器狗情感语音识别技能的研讨

发布时间:2018-11-27 01:06:05 文章来源:未来智讯    
    机器狗情感语音识别技能的研讨作者:未知   【摘 要】近年来随着国内人工智能技能的发展,对机器狗的研讨日趋深入。情感在人类的感知、决策等过程扮演着重要角色,语音作为人类和机器狗重要的交流媒介,携带着丰富的情感信息。如何使机器狗从语音中自动识别的主人情感状态受到人工智能领域研讨者的关注。本文从语音情感识别所涉及的情感语音数据库、语音中的情感特征和语音情感识别算法几个重要问题起程,研讨了情感语音机器狗的实现方法。
  【关键词】机器狗;语音情感识别;情感识别算法
  
  1引言
  
  语音作为人和机器狗交流的重要手段,是彼此传递信息直接、方便的途径。机器狗语音识别的任务是识别出指令信息和语音中携带的情感信息。现阶段对于机器狗情感语音的研讨在机器狗技能领先的日本和韩国也还处于一个起步阶段。随着微处理器技能的高速发展,人们对机器狗的本能要求也越来越高,希望机器狗具有人类的情感智商,从主人的语音指令中,识别出情感变化作出相应的反应。
  
  2情感语音数据库和情感语音特征
  
  语音中自动识别情感,最初必须建立一个情感数据库作为基础。机器狗的情感数据库来自现实生活,是人们在现实生活中表现出真实情感的语音。机器狗从买家购买后,它的情感智商初始值相当低,需要玩家对机器狗像自然狗一样进行各种训练,识别系统从而获得情感语音数据库。
  从语音中自动识别出说话者的情感状态,还必须研讨不同的情感对语音产生什么样的影响,对哪些特征产生了影响,之后再寻求能够用于情感识别的语音特征。语音的韵律特征是受情感影响最明显的特征,这一发现为机器狗情感语音识别技能识别提供了的理论依据。
  表1表示五种人类基本情感Anger(生气)、Happiness(高兴)、Sadness(伤心)、Fear(害怕)和Disgust(厌恶)相对于正常状态下各种语音特征的表现。基音包络(比如电平、范围、形状和基音轮廓的时间构造等)是区别各种基本情感的重要的特征,而音质参数则有利于区别各种二次情感。基本情感对语音特征的影响是跨文化的,各种文化背景下情况大致相同,而二次情感对语音特征的影响则是区别于不同文化背景的。存在这一问题的原因是某些情感的表达受文化背景的影响,基于心理学和韵律学研讨的结果,说话者的情感在语音中最直观的表现便是韵律特征和语音质量的变化,如音调、音强和音质等的变化。因此对语音情感识别的研讨是普遍从韵律特征和音质特征起初。尤其是韵律特征,被认为是最主要的语音情感特征[1]。表2所示为情感识别中最常用的语音特征,包括了基音、强度、语速等韵律特征和音质特征。
  
  然而否有了韵律特征就能够正确的识别语音中的情感了?真相上语音中某些韵律特征的变化除了受情感的影响之外,也跟具体的语言,句子结构和说话者的个体特征有关[2]。此外,语音韵律和音质特征的正确提取也存在问题,如基音的提取就受噪声的影响很大。另外,韵律特征并不是语音中传递情感的唯一媒介,除了韵律特征之外,在情感识别中研讨使用了其他不同的语音特征,试验证明了这些特征的有效性。
  语音的频谱特征是另一种传递情感的重要媒介[3]。试验表明了频谱特征的重要性,作者在试验中滤除了情感语句中几近所有的频谱信息,只保留了基音和音强特征。进行人类听力试验的结果发现原始语音中的情感识别率为85%,而滤除频谱结构只保留韵律特征的语音的情感识别率惟有47%文献[4]。
  
  3 语音情感识别方法
  
  机器狗情感语音识别实验选取基于隐马尔可夫模型的识别方法。隐马尔可夫模型(HMM)是一种统计信号模型,它通过使用特征矢量序列作为输入训练得到。HMM在语音识别中的应用已经有很长时间了。它有一个对照明显的优势,便是由于其状态转移矩阵的存在,能够捕捉语音在时间轴上的动态特性。在HMM方法中使用了短时特征序列,基音和能量轮廓携带了丰富的情感信息。因此,特征是基于基音和能量轮廓的。在连续HMM方法中,使用的特征为一个包括基音和能量轮廓及其导数的六维特征矢量序列如(1)式所示,其中i表示第i帧语音。
  
  建立的HMM声学模型中每个声学基元有3个状态,每个状态用4个高斯混合描述。模型训练选取玩家对机器狗逐渐训练录码的方式进行。通过使用基于决策树的状态共享策略,将任一模型的总状态数抑制在2000以内。模型所用的特征参数为39维MFCC,包含能量参数,以及一阶和二阶差分。实验中,分辨使用中性、生气、高兴、伤心、害怕和厌恶的情感语音单独训练六个不同的声学模型,即一个中性语音模型和五个情感语音模型。
  情感语音数据训练的声学模型可以有效提高对情感语音的识别率。与中性语音模型相比,情感语音训练的声学模型对同情感待测语音的识别率有很大的提高。然而由于对每种情感建模需要采集大量的情感语音数据,并且随着情感类别的增加数据量也急剧增加;同时,如果能够事先知道待测语音的情感并选用相应的情感声学模型,则对于情感语音的总体识别率为82.56%,然而相对于中性语音90.83%的正确率还是有较大的差距。因此,惟有采集大量的情感数据单独训练模型,让机器狗模仿自然狗的成长过程,才能保证机器狗对玩家的语音情感指令有很好的识别正确率,从而作出相应的反应。
  
  4 结论
  
  情感语音库对机器狗情感语音识别是一个相当关键的研讨基础,一个语音库的合适与否将影响到识别结果的正确度,因此必须设计一个通过主人对机器狗的训练语音录码的形式而建立的一个全面的语音库。对于语音情感识别来说,语音特征和识别算法的选择是相当关键的问题。情感的识别要尽可能考虑到一种情感的各种不同表现方式才不会导致错误的识别,另外由于个体差异和背景文化差异,说话人的情感并不都是通过韵律特征来表现。因此,全面的研讨各种语音特征的情感识别效果,以及如何将韵律特征与其他语音特征相联合是机器狗语音情感识别的一个研讨方向。此外使用的识别算法相当重要,寻找一种高效的识别算法并跟具体使用的特征相联合,进一步提高情感识别的精度,是一个今后研讨情感机器狗的重要方向。
  
  【参考文献】
  [1].Bhatti M W, Wang Y, Guan L. A Neural Network Approach for Human Emotion Recognitionin Speech[A]. ISCAS'04[C], 2004.181-184.
  [2].Nogueiras A, Moreno A, Bonafonte A,et al. Speech Emotion Recognition Using Hidden Markov Models[A]. Eurospeech 2001[C], 2001.
  [3].Lieberman P, Michaels S B. Some Aspects of Fundamental Frequency and Envelope Amplitude as Related to the Emotional Content of Speech [J]. Journal of the Acoustical Society of America, 1962,34:922-927.
  [4].Polzin T S, Waibel A. Emotion-Sensitive Human-Computer Interfaces[A].ISCA Workshop on Speech&Emotion[C], 2000.
  
  作者简介:傅胤荣,韩山师范学院物理与电子工程系,助教,硕士,主要研讨方向为电力电子技能、人工智能技能。

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1127/47732/
 与本篇相关的热门内容: