未来智讯 > 人脸语音识别论文 > 语音识别技能的过程和应用

语音识别技能的过程和应用

发布时间:2018-11-28 01:06:04 文章来源:未来智讯    
    语音识别技能的过程和应用作者: 张珠瑾 王剑宇   摘 要:利用语音传递信息是人类最常用,最方便,最快捷的一种方式。人类最常用的传递信息的方式便是声音,随着现代信息化时代的不时发展,人们更加深入的研讨语音信号的处理技能,并且由于语音的特殊作用及其重要性,还有其对人们生活的不时深入的影响,使得其十分受关注。语音识别技能便是将说话人的语言转变为计算机能够听懂的语言,语音识别技能的涉及面极广,它涉及到多个学术领域,如计算机科学、语言学、神经生理学、信号处理以及人工智能等。
  关键词:语音识别过程;动态时间规整;隐马尔科夫模型;人工神经网络;语音识别的应用
  中图分类号:TN912.34
  1 语音识别技能基本原理及过程介绍
  语音识别系统由语音信号预处理、特征提取、模式匹配三局部构成。第一步预处理,主要有A/D变换、预加重和端点检测局部。经过预处理之后的语音信号,要进行第二步特征提取,该过程便是在原始语音信号中提取出所需要的特征参数,从而得到特征矢量序列,特征提取完成后,接下来便是语音识别的核心,也便是第三步模式匹配,也便是模式识别。系统框图如下[1]。
  图1 一般语音识别系统框图
  2 语音识别方法
  目前,主要的语音识别方法主要有特征参数匹配法、隐马尔可夫法和人工神经网络法。
  2.1 动态时间规整
  动态时间规整(DTW)是早期的模式匹配方法。由于语音信号是一种随机性相当大的信号,例如相同的字,不同人说时的发音会不同,时间长短也会不同,即就是同一个人说相同的语句,发音结果也会不同,于是,在模式匹配时,要识别字词的时间轴将不时扭曲,以测试模板与参考模板对齐。DTW是一个对照典型的优化问题,它用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。动态时间规整也存在一些问题,它的计算量大,对照符合同一个人说话语音的识别,而且不能对样本做动态训练,语音信号的时序动态特性并没有很好地利用,所以DTW多用于孤立字词的识别。
  2.2 隐马尔可夫模型
  隐马尔可夫模型(HMM)是一种统计模型,用来描述随机过程的统计特性。它是由马尔可夫链演变来的。[2]
  HMM可用三元组表示:λ=(π,A,B)
  A:状态转移几率的聚集。
  B:观察几率的聚集,表示每个状态输出相应观察值的几率。
  π:系统初始状态的聚集。
  这三个元素π,A,B能够分为由π、A描述的Markov链和由B描述的随机过程。
  HMM是一种理想的语音信号模型,现在,连续语音识别,非特定人识别系统大多是基于HMM模型的。HMM是对语音序列的时间序列结构建立统计模型的,HMM是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程[3]。
  只管马尔可夫模型是一种理想的语音信号模型,然而它还有很多不足。HMM有三个不现实的重要假如,假如一“状态转移的Markov假如”:系统在当前时刻的状态向下一时刻所处的状态转移的状态转移几率仅仅与当前时刻的状态有关,而与从前的状态无关。假如二“不动性假如”:状态与具体时间无关。假如三“输出值的Markov假如”:输出仅与当前状态有关。这三个假如之所以不合理,是因为任一时刻出现的观测值的几率不但是依赖于系统当前所处的状态,也可能依赖于系统之前时刻所处的状态[4]。
  2.3 人工神经网络
  人工神经网络(ANN)是在模拟人脑神经组织的基础上发展起来的全新计算机系统。ANN是模拟人类思想中“信息的处理是通过神经元之间同时相互作用的动态过程来完成思想”。ANN是一种非线性动力学系统,它的特点在于信息的分布式储存和并行协同处理。单个神经元的结构大略,然而大量的神经元所构成的神经网络却是一种复杂的网络。ANN更接近于人的认知过程。人工神经网络也存在一些不足,它的训练、识别时间较长、动态时间规整能力较弱并且不容易实现。
  3 语音识别的应用和前景
  现在的科技领域,几近每天都有新的技能,新的研讨成果出现,而语音识别也是这科技研讨的一热门领域,也应用到了人类生活的方方面面。
  语音识别的应用相当广泛,语音输入技能的出现,能够使人们通过说话,而非手动输入来作出准确的响应,这样使输入变的更加大略,提高了事务学习的效率。语音识别技能能够应用于汽车,能够使驾驶员用语音指令操纵车载设备,提高汽车驾驶的平安性和舒适性。将语音识别、语言理解与大量的数据库检索和查询技能相联合,就可以实现更轻松的信息查询方式。比如,图书馆的资料信息将可以对来自用户的语音输入进行理解,并将它转化为相应的指令,从数据库中获取结果并返回给用户。这种技能同样能够运用于银行服务、医疗服务等方面。语音识别技能还能够应用于口语翻译,例如,能够让与聋哑人对话的对方带上一个智能语音识别的微型摄像装置,或者给聋哑人带上一种特制的手套,然后,就能够通过语音合成技能和语音识别技能将手语翻译成声音语言,同时,系统还可以完成将正凡人的语言翻译成聋哑人的手语,这种口语翻译一种语音输入翻译为另一种语言的语音输出。除此之外,语音识别在军事,航空等领域也有辽阔的应用空间。语音识别将不时发展,不时丰富人类的生活。
  参考文献:
  [1]赵力.语音信号处理第2版[M].北京.机械工程出版社,2009(05).
  [2]何彦斌,杨志义,马荟.一种基于HMM的场景识别方法[J].计算机科学,2011(04):254-256.
  [3]吕云芳,基于模板匹配法的语音识别系统研讨与基本实现[D].天津:河北工业大学,2005.
  [4]刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004(03):507-510.
  作者简介:张珠瑾(1994-),女,河南濮阳人,本科生,研讨方向:计算机科学与技能。
  作者单位:郑州大学,郑州 450000
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1128/48203/
 与本篇相关的热门内容: