未来智讯 > 人脸语音识别论文 > 基于模糊K近邻的语音情感识别
    基于模糊K近邻的语音情感识别作者: 吕志浩 马赫 鲁润南   摘 要 随着计算机技能的不时发展,语音情感识别成为人工智能领域的研讨热点。语音情感识别包括语音信号预处理、特征参数提取和情感识别分类器等。本文着重对语音情感的特征提取方法与特征计算的分类进行研讨,选取对情感语音进行预处理,包括抗混叠滤波、预加重、加窗以及端点检测等,对高兴、愤怒和悲伤3种语音情感提取短时能量、过零率、短时幅度以及MFCC等参数,根据柏林情感语音库中的90句情感语音,使用模糊K近邻算法对语音的3种情感进行识别。
  关键词 语音情感;特征提取;模糊K近邻算法
  中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2016)172-0279-02
  K近邻算法运用统计学的方式,即“物以类聚”的简便方式将待测样本与训练样本中K个距离权重近来的类别分为一种类别[ 1 ]。这种方式大略快捷,易于实施,但也存在相应不足之处,譬如,需要计算所有待测样本进入决策,存在一定决策风险与冗余度大的缺点,为突破以往的K近邻算法的瓶颈,下面提出一种基于模糊集理论K近邻算法进行整改,并通过Matlab 2014软件进行实验仿真的方式验证其在语音情感特征提取的作用。
  1 K近邻分类算法以及模糊集理论
  1.1 K近邻分类算法
  K近邻(K-Nearest Neighbor, KNN)算法基本原理较为简便[ 2 ],即在一个多维度空间内Rn内,计算待测样本中的矩阵数据x,依次与该空间内的其他已训练好的样本数据求距离,而后采用数值K个样本点,各不同训练样本对照距离值的大小,则待测样本的类别就被分类在距离值最多的那一类中来。
  5)然后再利用FKNN进行识别分类。
  2 基于FKNN 的语音情感识别实验
  最初介绍一下实验环境:笔记本电脑4G/2G,Windows7系统/Matlab2014,所选语音数据库为柏林语音情感库(16kHz 16Bit量化的单声道wav格式)。各分为3类语句:高兴、悲伤、愤怒各30段不同语句的语音段。实验采用3种情感分类(高兴、悲伤、愤怒),分辨对3种感情进行短时特征参数的提取。
  2.1 实验过程
  该实验的特征参数提取大致流为:读取语音文件,通过加汉明窗分帧,计算短时能量、幅度、过零率。使用Matlab 2014对样本语音进行特征提取并记录相关统计结果进行分析,而后对每一样本进行训练,提取其参数结果。
  2.2 实验结果分析
  实验对比了未改进的KNN算法与改进后的FKNN算法分辨选取两种实验,其中K的取值不同。具体结果如图1所示。
  3 结论
  通过图表分析可得通过改进后的算法对语音情感的提取更为正确,能够提到2个百分点。随着k值得增大,识别的效果越好,当然所需时间也增加。整个识别过程中不管是KNN还是FKNN对愤怒识别率都较其他情感高。整体来说,模糊K近邻算法在考虑到各参数对语音情感提取的权重不同进行合理了的“协调”使得实验结果更加令人如意。
  参考文献
  [1]王吉林,夏菽兰,赵力.基于模糊K近邻的模糊支持向量机的语音情感识别[J].微电子学与计算机,2014(4).
  [2]Hui Wang.Nearest neighbors by neighborhood counting. Pattern Analysis and Machine Intelligence, IEEE Transactions on .2006.
  [3]韩文静,李海峰,阮华斌,等.语音情感识别研讨进展综述[J].软件学报,2014,25(1):37-50.
  [4]金鑫.浅谈情感模型及建模方法研讨[J].科技创新与生产力,2015(11):55-56.
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1127/47715/
 与本篇相关的热门内容: