未来智讯 > 人脸语音识别论文 > 基于神经网络的语音识别技能应用研讨

基于神经网络的语音识别技能应用研讨

发布时间:2018-11-28 01:06:04 文章来源:未来智讯    
    基于神经网络的语音识别技能应用研讨作者:未知   摘 要:语音识别技能可以实现人机对话,本文从神经网络角度起程对语音识别技能的应用及优化进行探究。文章最初概括了神经网络及语音识别技能的相关理论;其次对语音识别系统基本结构设计进行了分析,主要包括语音信号处理、BP算法、BP网络结构的设计以及学习样本的采用;最终对人工神经网络语音识别的应用实例进行了论述,具体包括对于特定人的语音识别、对于非特定人的语音识别以及BP算法改进的进步一实验三局部。
  关键词:神经网络;语音识别技能;应用实践
  中图分类号:TN912.34 文献标识码:A 文章编号:1671-2064(2018)06-0018-02
  在当前信息时代之下,人们对计算机的智化要求日渐提升,语音识别技能就是计算机智化的重要表现之一,各学者对语音识别技能的研讨也非常多,并提出较多的识别方法,如模板匹配法、统计模式识别法等,这些方法存在一定的劣势,本文从神经网络理论起程对语音识别技能进行探究,分析基于神经网络的语音识别系统的构建与应用实践,以期为相关研讨人员提供一定的参考。
  1 神经网络及语音识别技能概括
  1.1 神经网络
  神经网络分为生物神经网络及人工神经网络,本文所探讨的为人工神经网络(ANNs,Artificial Neural Networks)。人工神经网络是一种链接模型,依照生物神经网络的特征所构建的一种算法模型,其中最常用的一种模型为BP网络模型,该种网络模型能学习和存贮大量的输入-输出模式映射关系,能够解决大量复杂的问题。
  1.2 语音识别技能
  语音识别技能(ASR,Automatic Speech Recognition)即使计算机读写人类语音中的词汇内容的一种方式,常常通过将人类语音中的词汇内容转化为二进制编码或者是按键再或者是字符序列,使计算机可以识别这些内容,从而实现人机交互。在当前全球化的背景下,实现人机交互,则可以使语言不通的人相互交流,故而研讨语音识别技能极为重要。
  2 语音识别系统基本结构设计
  经理论分析及实践研讨,语音识别系统的基本结构应如图1所示。
  2.1 语音信号处理
  语音信号处理质量直接影响着整个语音识别系统的质量,所以在语音信号预处理、时域分析、语音信号的断电检测及特征提取方面,必须要极为严谨。
  (1)语音信号预处理准时域分析。对于语音信号的预处理,主要的步骤是采集语音,并将语音进行放大等增益抑制,必要情况下能够采取反混叠滤波以及预加重等措施,以确保所收集的语音的质量。
  (2)语音信号的端点检测及特征提取。端点检测主要的作用是对已经进行�A处理的语音信号的进一步检测,因为大略的预处理之后语音信号仍有一定的背景噪音,可能会对后续的语音检测产生影响,所以需要通过语音信号进行起点检测以及末尾检测,并进行分帧,从而确保检测结果质量。
  2.2 BP算法
  因为语音信号转化为计算机可识别的信息时会存在一定的误差,而这种误差又具有不规律性,所以需要应用BP算法,通过推理及逆向推理来调整输出层与输入层权矩阵。BP算法主要分为两个阶段,分辨是向前传播阶段以及向后传播阶段,其中向后传播阶段又被成为“误差传播阶段”。
  (1)向前传播阶段。该阶段主要是确定输出层的误差。其具体算法为:
  最初,判定隐含层的第i个神经元的输出,其输出公式为:
  其次,判定输出层的低k个神经元的输出,其输出公式为:
  最终,联合具体的情况判定误差函数,其函数公式为:
  (2)向后传播阶段。该阶段主要是将输出层的误差沿着与输入信号相反的方向逐步传递到输入端。这一阶段主要的算法为:
  最初,确定依据本能目标函数Ep,确定思绪,具体为:
  因为,故而若想使ω向着Ep减小方向移动时,△ω的取值在(-∞,0)之间,反之则应当取(0,+∞)。
  其次,假如输出层为r=2,得出公式:
  再次,假如隐含层为r=1,再利用复合微分的相对准则,确定第j个隐层节点公式:
  最终,得出误差算法,其公式为:
  2.3 BP网络结构的设计
  BP网络结构设计中,常常需要考虑的有五个方面,确保这五个层面的合理性,则可以确保语音识别的质量。
  (1)网络的层数。由以上公式能够看出一个线性输出层与大于等于一个S型隐含层所构成的网络,这一网络中的数据与有理函数相似,所以能够用有理函数公式进行代替,在层数不时增加的时候,误差会极大的降低,然而网络会更加复杂,故而需要进行判定,选择最合理的网络层数。
  (2)隐含层的神经元数。为使数据进一步精确,还能够依据具体的情况来增加隐含层的神经元数,从理论上来讲,隐含层的神经元数应当是越多越好。
  (3)初始权值的采用。因为基于BP模型设计的系统结构并不是线性的,所以必须要合理确定初始权值,这样方能确保每一个神经元的权值能够在激活函数变化最大处进行调节,使神经元的输出值与0尽可能的接近,常常情况下,初始值会在-1到1之间。
  (4)学习速率。学习速率影响着系统的质量以及效率,如果学习速率对照小,那么系统训练的时间便会加强,使效率降低,然而学习速率过大,则可能会影响到系统的稳定性,从而使系统的质量受到影响,经过大量的实践,笔者认为学习速率的值应当在0.01到0.8之间,这样方能在保障系统稳定的基础上确保其误差值较小。
  (5)期望误差的采用。期望误差的选择应当依据具体的隐含层节点数确定,只是一般情况下是依靠调节隐含层节点以及调整学习时间两种方式来确定。
  2.4 学习样本的采用
  在确定了语音识别系统的总体结构之后,还应当选择合适的样本,以确保效果。常常情况下是选择相对较佳的特定人的语音样本进行基本分析,接着再选择非特定人的语音样本进行处理。
  3 人工神经网络语音识别的应用实例
  依据以上系统,进行实践,先确定特定人的语音识别,再确定非特定人的语音识别,最终应用BP算法进一步改进。
  对于特定人的语音识别,主要是选择某一个人的声音,对其声音样本进行识别,通过调整神经元数目进一步调整识别率。在实验中,设计神经元数为25、30、35、40时候,识别结果如表1所示。
  接着对非特定人进行语音识别,所用的方法与对于特定人的语音识别方法一致,具体的测试数据如表2所示。
  通过BP算法进行改进,最终的测试数据如表3所示。
  由上能够得知,基于神经网络的语音识别系统在语音识别方向作用较大,且有巨大的潜力。
  4 结语
  本文是对基于神经网络的语音识别技能的应用进行的探究,文章在概括了神经网络及语音识别技能的相关理论之后对语音识别系统的建构及应用实践进行探究,以期为相应研讨人员提供一定的参考,同时抛砖引玉,希望有更多的学者参与其中进行探究,从而优化语音识别技能,促进计算机的进一步智能化。
  参考文献
  [1]朱锡祥.基于一维卷积神经网络的车载语音识别技能研讨[D].安徽大学,2017.
  [2]蔡伟建.人工神经网络理论在语音识别技能中的应用[A].2016:4.
  [3]田丽.基于小波神经网络的语音识别的研讨[D].大庆石油学院,2015.
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1128/48190/
 与本篇相关的热门内容: