未来智讯 > 人脸语音识别论文 > 基于卷积神经网络的语音情感识别研讨

基于卷积神经网络的语音情感识别研讨

发布时间:2018-11-27 01:06:05 文章来源:未来智讯    
    基于卷积神经网络的语音情感识别研讨作者:未知   摘 要:语音识别对于人机交互而言一直以来都是相当重要的。而仅仅识别语音的内容,忽略它的情感是不完整的识别。因此,对语音情感的研讨十分有必要。卷积神经网络在图像分类和语音识别等领域中取得了一系列的突破,十分具有分析和研讨价值。将语音信号转换成三维语谱图的形式,送入到卷积神经网络进行分类识别是最基本的方式。文章做了以下事务:(1)研讨了对语谱图进行不同的预处理,然后再送入网络模型中进行对照。(2)对卷积神经网络进行改进,对比改进后的网络与原始的网络,得出改进后的网络在识别率上具备更好的效果。
  关键词:语音情感;卷积神经网络;语谱图;改进
  中图分类号:TN912.34 文�I标志码:A 文章编号:2095-2945(2018)13-0040-02
  Abstract: Speech recognition is always essential for human-computer interaction. It is incomplete to recognize the content of speech only but ignore its emotion. Therefore, it is necessary to study speech emotion. Convolution neural network (CNN) has made a series of breakthroughs in the field of image classification and speech recognition, which is of great value for analysis and research. It is the most basic way to convert the speech signal into the form of three-dimensional spectrum and send it to the convolution neural network for classification and recognition. In this paper, we do the following work: 1) We study the different preprocessing of the linguistic spectrum, and then send it into the network model for comparison. 2) We improve the convolutional neural network, compare the improved network with the original network, and conclude that the improved network has better effect in recognition rate.
  Keywords: speech emotion; convolutional neural network (CNN); linguistic spectrogram; improvement
  当今时代智能科技飞速发展,科学家们致力投身于一个伟大的行业,不时探索、不时进步,创造了一项又一项的世界纪录。情感计算这一观念最初被美国Picard教授提出,在她的论文中,情感计算被定义为:与情感相关,来源于情感,或者可以对情感施加影响的计算[1]。中科院胡包钢教授对情感计算有重新的定义:通过技能手段,赋予计算机诸如人类识别、理解、表达情感这样的能力,从而能够实现更加和谐的人际交互,实现更加高级的智能[2]。20世纪80年代中期,Bezooijen和Tolkmitt对语音情感的基本特性以及模式进行了研讨,开启了运用声学特征对情感识别的时代。1999年,Moriyama建立了语音和情感的联系模型,并在电子商务领域中得到了应用[3]。到了21世纪,语音情感识别的研讨起初逐渐加快。美国教授Picard表明了声学特征参数与情感间的联系[4];德国Schuller团队提出了情感识别框架的诸多构想[5];Narayanan科研小组探索了语音中与情感相关的声学特征参数,研讨了情感的合成以及联合语义信息的情感识别[6];日本Nicholson选用神经网络技能对情感进行识别[7]。21世纪初,国内东南大学赵力教授率先提出了语音中情感信息的研讨[8],随后,许多科研机构也起初了相关研讨。
  1 语音信号的预处理
  研讨卷积神经网络的输入后,明白到网络的输入是二维矩阵,那么对于复杂的语音信号,该如何转换成研讨所需要的二维矩阵。这个时候就要应用语谱图了,语谱图是一种三维频谱,它将和时序相关的傅立叶分析显示到图形上。语谱图的规范化将是CNN语音情感识别研讨的第一步,也是至关重要的一步。为了适应于卷积神经网络的要求,介绍下面四种语谱图预处理算法。(1)时间维度降采样:取所有样本中最小的采样频率cmin,以cmin/c为重采样率,获得处理后的样本聚集。(2)时间维度中采样:取所有样本的采样频率求平均值得到cmean,以cmean/c为重采样率,能够获得处理后的样本聚集。(3)对样本时间维度进行切割,以c为指标时间维度,能够获得处理后的样本聚集。(4)时间维度PCA降维,利用PCA降维的方法对时间维度进行处理,获得处理后的样本聚集。
  2 改进的卷积神经网络设计
  2.1 多卷积核CNN
  传统的卷积神经网络在卷积核尺度上是固定的,而语谱图上所包含的信息是多尺度的,为了能提取到更具备情感敏感度的特征,采取两种尺度的卷积核进行研讨。双卷积核CNN的网络结构为:输入-双卷积-分辨池化-分类。
  2.2 显著性特征CNN
  传统的卷积神经网络在池化层后将一维变量直接送入到Softmax分类器中,并没有对一维向量做任何的处理。分析这些一维向量能够得到,这些并不全是与情感特征相关的向量,所以提出对这些一维向量进行二次特征提取,得到与语音情感更加亲密相关的向量。显著性特征提取CNN将情感相关特征与其他特征解耦,实现了特征聚集降维的同时,提取了与指标标签更为相关的特征。
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1127/47724/
 与本篇相关的热门内容: