未来智库 > 神经网络论文 > 【基于卷积神经网络的语音情感识别研究】
    关键词:语音情感;卷积神经网络;语谱图;改进
    中图分类号:TN912.34 文�I标志码:A 文章编号:2095-2945(2018)13-0040-02
    Abstract: Speech recognition is always essential for human-computer interaction. It is incomplete to recognize the content of speech only but ignore its emotion. Therefore, it is necessary to study speech emotion. Convolution neural network (CNN) has made a series of breakthroughs in the field of image classification and speech recognition, which is of great value for analysis and research. It is the most basic way to convert the speech signal into the form of three-dimensional spectrum and send it to the convolution neural network for classification and recognition. In this paper, we do the following work: 1) We study the different preprocessing of the linguistic spectrum, and then send it into the network model for comparison. 2) We improve the convolutional neural network, compare the improved network with the original network, and conclude that the improved network has better effect in recognition rate.
    Keywords: speech emotion; convolutional neural network (CNN); linguistic spectrogram; improvement
    当今时代智能科技飞速发展,科学家们致力投身于一个伟大的行业,不断探索、不断进步,创造了一项又一项的世界纪录。情感计算这一概念首先被美国Picard教授提出,在她的论文中,情感计算被定义为:与情感相关,来源于情感,或者能够对情感施加影响的计算[1]。中科院胡包钢教授对情感计算有重新的定义:通过技术手段,赋予计算机诸如人类识别、理解、表达情感这样的能力,从而可以实现更加和谐的人际交互,实现更加高级的智能[2]。20世纪80年代中期,Bezooijen和Tolkmitt对语音情感的基本特性以及模式进行了研究,开启了运用声学特征对情感识别的时代。1999年,Moriyama建立了语音和情感的联系模型,并在电子商务领域中得到了应用[3]。到了21世纪,语音情感识别的研究开始逐步加快。美国教授Picard证明了声学特征参数与情感间的联系[4];德国Schuller团队提出了情感识别框架的诸多构想[5];Narayanan科研小组探索了语音中与情感相关的声学特征参数,研究了情感的合成以及结合语义信息的情感识别[6];日本Nicholson选用神经网络技术对情感进行识别[7]。21世纪初,国内东南大学赵力教授率先提出了语音中情感信息的研究[8],随后,许多科研机构也开始了相关研究。
    1 语音信号的预处理
    研究卷积神经网络的输入后,了解到网络的输入是二维矩阵,那么对于复杂的语音信号,该如何转换成研究所需要的二维矩阵。这个时候就要应用语谱图了,语谱图是一种三维频谱,它将和时序相关的傅立叶分析显示到图形上。语谱图的规范化将是CNN语音情感识别研究的第一步,也是至关重要的一步。为了适应于卷积神经网络的要求,介绍下面四种语谱图预处理算法。(1)时间维度降采样:取所有样本中最小的采样频率cmin,以cmin/c为重采样率,获得处理后的样本集合。(2)时间维度中采样:取所有样本的采样频率求平均值得到cmean,以cmean/c为重采样率,可以获得处理后的样本集合。(3)对样本时间维度进行切割,以c为目标时间维度,可以获得处理后的样本集合。(4)时间维度PCA降维,利用PCA降维的方法对时间维度进行处理,获得处理后的样本集合。
    2 改进的卷积神经网络设计
    2.1 多卷积核CNN
    传统的卷积神经网络在卷积核尺度上是固定的,而语谱图上所包含的信息是多尺度的,为了能提取到更具备情感敏感度的特征,采取两种尺度的卷积核进行研究。双卷积核CNN的网络结构为:输入-双卷积-分别池化-分类。
    2.2 显著性特征CNN
    传统的卷积神经网络在池化层后将一维变量直接送入到Softmax分类器中,并没有对一维向量做任何的处理。分析这些一维向量可以得到,这些并不全是与情感特征相关的向量,所以提出对这些一维向量进行二次特征提取,得到与语音情感更加密切相关的向量。显著性特征提取CNN将情感相关特征与其他特征解耦,实现了特征集合降维的同时,提取了与目标标签更为相关的特征。
转载请注明来源。原文地址:https://www.7428.cn/vipzj19618/
 与本篇相关的热门内容: