未来智讯 > 人脸语音识别论文 > 语音识别系统研讨
    语音识别系统研讨作者: 张瑞昕   【摘要】语音识别是模式识别的一个分支,又从属于信号处理科学领域,同时与语音学、语言学、数理统计及神经生物学等学科有相当亲密的关系。语音识别的目的便是让机器“听懂”人类口述的语言。目前,语音识别技能已经发展成为涉及声学、语言学、数字信号处理、统计模式、几率论和信息论、发声机理和听觉机理、人工智能等等识别等多学科技能的一项综合性技能。
  【关键词】语音识别 模式识别 过程 统功能
  1、语音识别技能原理简介
  1.1语音识别技能的观念
  语音识别技能(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机可以“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技能在“能听会说”的智能计算机系统中扮演着重要角色,非常于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通讯和交互。
  1.2语音识别的系统组成
  语音识别系统构建过程总体上包括两大局部:训练和识别。
  1.2.1训练
  训练常常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”。
  1.2.2识别
  识别过程常常是在线完成的,对用户实时的语音进行自动识别,能够分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,能够对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的正确率。
  语音识别技能所面临的问题是相当艰巨和困难的。只管早在二十世纪五十年代,世界各国就起初了对这项技能孜孜不倦的研讨,特别是近来二十年,国内外相当多的研讨机构和企业都投入到语音识别技能的研讨领域,加入了极大的努力,也取得了丰硕的成果,然而直到今天,距离该技能得到完美解决还存在着巨大的差距,只是这并不阻碍不时进步的语音识别系统在许多相对受限的局面下获得成功的应用。
  现在,语音识别技能已经发展成为涉及声学、语言学、数字信号处理、统计模式识别等多学科技能的一项综合性技能。基于语音识别技能研发的现代语音识别系统在很多场景下获得了成功的应用,不同任务条件下所选取的技能又会有所不同。
  2、语音识别系统技能实现
  语音识别系统选择识别基元的要求是:有正确的定义,能得到足够数据进行训练,具有一般性。系统所需的训练数据大小与模型复杂度有关,模型设计得过于复杂以至于超出了所提供的训练数据的能力,会造成系统本能的急剧降落。
  2.1听写机
  2.1.1观念
  大词汇量、非特定人、连续语音识别系统常常称为听写机。
  2.1.2基本架构
  听写机是建立在前述声学模型和语言模型基础上的HMM拓扑结构,训练时对每个基元用前向后向算法获得模型参数,识别时将基元串接成词,词间加上静音模型并引入语言模型作为词间转移几率,变成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。
  2.1.3对话系统
  用于实现人机口语对话的系统称为对话系统。目前,受技能所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。它的前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。基于目前的系统往往词汇量有限的情况,也能够用提取关键词的方法来获取语义信息。
  3、语音识别系统特性
  语音识别系统的本能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。具有自适应性与鲁棒性。解决办法可大致分为两类:针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,投入一些特定的处理方法。后者是利用小量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。
  4、语音识别的应用
  语音识别专用芯片的应用领域,主要包括以下几个方面:
  4.1电话通讯的语音拨号。特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。
  4.2汽车的语音抑制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通讯方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也能够由语音来方便的抑制。
  4.3工业抑制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加抑制操作时,最好的办法便是增加人与机器的语音交互界面。由语音对机器发出下令,机器用语音做出应答。
  4.4个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技能的瓶颈之一。由于在PDA上使用键盘相当不便,因此,现多选取手写体识别的方法输入和查询信息。然而,这种方法仍然让用户感到很不方便。如今业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有小量应用。随着语音识别技能的提高,能够预见,在未几的将来,语音将成为PDA主要的人机交互界面。
  4.5智能玩具。通过语音识别技能,我们能够与智能娃娃对话,能够用语音对玩具发出下令,让其完成一些大略的任务,甚至能够制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于降低语音芯片的价格。
  4.6家电遥控。用语音能够抑制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就能够把家中的电器皆用语音控起来,这样,能够让令人头疼的各种电器的操作变得大略易行。
  参考文献:
  [1]刘幺和,宋庭新.语音识别与抑制应用技能[M].科学出版社,2008(3)
  [2]LAWRENCE RABINER,BIING HWANG JUANG.语音识别基本原理[M].清华大学出版社
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1122/45325/
 与本篇相关的热门内容: