未来智讯 > 人脸语音识别论文 > 浅谈语音识别技能的应用和发展

浅谈语音识别技能的应用和发展

发布时间:2018-11-26 01:06:05 文章来源:未来智讯    
    浅谈语音识别技能的应用和发展作者:未知   摘要 语音识别技能便是让机器通过识别和理解过程把语音信号转变为相应的文本或下令的技能,其最后指标是实现人与机器进行自然语言通讯。语音作为一个交叉学科,具有深远的研讨价值,近50年的研讨发展,语音识别技能已经有了极大的发展。本文介绍了语音识别技能的基本原理和应用,并且对语音识别技能的发展趋势进行了展望。
  关键词 语音识别;应用;发展
  中图分类号 TN912.34 文献标识码 A文章编号 1674-6708(2009)08-0022-02
  
  0 引言
  
  语音是人类彼此之间进行交流时使用最多、最自然、最基本、最重要的信息载体。在高度信息化的今天,语音处理的一系列技能及其应用已经成为信息社会不可缺少的组成局部。语音的产生是一个复杂的过程,包括心理和生理等方面的一系列因素。当人们需要通过语音表达某种信息时,最初是这种信息以某种抽象的形式表如今说话人的大脑里,然后转换为一组神经信号,这些神经信号作用于发声器官,从而产生携带信息的语音信号。
  
  1 语音识别的研讨历史及现状
  
  在国外语音识别的研讨事务能够追溯到上世纪50年代。1952年AT&T贝尔实验室的Audry系统是第一个能够识别十个英文数字的语音识别系统。
  上世纪60年代末70年代初出现了语音识别方面几种基本思维,其中重要成果是提出了信号线性预测编码(LPC)技能和动态时间规整(DTW)技能,有效的解决了语音信号特征提取和不等长语音匹配问题,同时,还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
  上世纪80年代语音识别研讨进一步走向深入,其显著特征是隐马尔可夫模型(HMM)和人工神经网络(ANN)在语音识别中的成功应用。上世纪90年代,在计算机技能、电信应用等领域飞速发展的带动下,迫切的要求语音识别系统从实验室走向实际应用。具代表性的是IBM的Via Voice和Dragon公司的Dragon Dictate系统,这些语音识别系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不时提高识别率[1]。
  国内在语音识别研讨上也加入了很大的精力,中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研讨和开发。国家863智能计算机专家组为语音识别技能研讨专门立项,我国语音识别技能的研讨水平已经基本上与国外同步。
  
  2 语音识别系统的分类
  
  目前,语音识别的系统分类有孤立语音和连续语音识别系统,特定人和非特定人语音识别系统,大词汇量和小词汇量语音识别系统,嵌入式/服务器模式等。
  2.1 孤立语音和连续语音识别系统
  自然的语音,只在句尾或是文字需要加标点的地方必须间断,其它的局部能够连续不时地发音。从前的语音识别系统,几近都是以单字或单词为单位的孤立语音识别系统,但随着近年来的研讨和发展,连续语音识别技能渐趋成熟,这个最自然的说话方式,将成为语音识别系统的主流。
  2.2 特定人和非特定人语音识别系统
  特定人和非特定人语音识别系统是按照声学模型建立的方式来划分。特定人系统是指系统在使用前必须由用户输入大量的发音数据,并对其进行训练。非特定人系统则试图达到在系统构建成功之后,用户不需要事先输入大量的训练数据,即可使用的目的。
  2.3 大词汇量和小词汇量语音识别系统
  在语音识别技能的发展过程中,词汇量也恰是从少到多不时积累的,随着词汇量的增大,对系统各方面的要求也越来越高,该系统的成本也越来越高了。语音识别系统不过要为你在开车的时候利用语音进行电话拨号,那它只要能听懂十个数字就能够了,属于小词汇量语音识别系统。如果它是为你自动订飞机票,那么它就应该还会认识地名、时间等字和词,这属于中等词汇量语音识别系统。如果它是为一个记者把口述的一篇汇报转换成为文字,那它的词汇量就必须很大才能胜任这样的事务,这属于大词汇量语音识别系统[2]。
  2.4 嵌入式/服务器模式
  嵌入式是将语言识别软件及模型写在设备(如手机)的存储器里,识别过程在终端完成。在服务器模式,终端只负责收集和传导语音信号,由服务器负责完成识别。因此,对于大规模、多用户和有大量识别需求的系统,服务器模式提供了有效的方式。同时服务器方式对最后用户的知识需求甚少,系统的更新、升级和管理方便、有效,可由运营商负责,而嵌入式则在很大程度上受终端设备资源所限。
  
  3 语音识别的几种基本方法
  
  当今语音识别技能的主流算法,主要有传统的基于动态时间规整(Dynamic Time Warping,DTW)算法、基于非参数模型的矢量量化(VectorQuantization,VQ)方法、基于参数模型的隐马尔可夫模型(Hidden Markov Models,HMM)的方法和基于人工神经网络(Artificial Neural Network,, ANN)等语音识别方法[3]。
  
  4 语音识别系统的结构[4]
  
  语音系统基本构造,如图1所示,系统能够分为前端处理和后端处理。前端处理包括语音的录入、处理、特征值的提取,后端是个夸数据库的搜索过程,,分为训练和识别。训练是对所建的模型进行评估、匹配、优化,获得模型参数。识别是一个专用的搜索数据库,获取前端数值后,在声学模型、一个语言模型和一个字典。声学模型表示一种语言的发音声音,能够通过训练来识别特定用户的语音模型和发音环境的特征。语言模型是对语料库单词准则化的几率模型。字典列出了大量的单词及发音准则。整体上说,语音识别是一个模式识别匹配的过程,在这个过程中,计算机最初要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。然后,在识别过程中,计算机根据语音识别的总体模型,将计算机中已经存有的语音模板与输入语音信号的特征进行对照,并根据一定的搜索和匹配策略找出一系列最优的与输入语音匹配的模板。最终通过查表和判决算法给出识别结果。显然识别结果与语音特征的选择、语音模型和语言模型的好坏、模板是否正确等都有直接的关系。
  
  5 语音识别尚未解决的问题及值得研讨的方向
  
  5.1 就算法模型方面而言,需要有进一步的突破。
  声学模型和语言模型是听写识别的基础。目前,使用的语言模型不过一种几率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展。
  5.2 语音识别的自适应性也有待进一步改进
  同一个音节或单词的语音不但随着讲话者的不同而变化,而且对同一个讲话者在不同局面、不同上下文环境中也会发生变化,这意味着对语言模型的进一步改进。
  5.3 语音识别技能还需要能排除各种环境因素的影响
  对语音识别效果影响最大的便是环境杂音或噪音。要在嘈杂环境中使用语音识别技能必须有特殊的抗噪麦克风才能进行,这对多数用户来说是不现实的。在公共局面,对于语音识别技能能清除环境嗓音并从中获取所需要的特定声音,是一项艰巨的任务。
  
  参考文献
  [1]柳春.语音识别技能研讨进展[J].甘肃科技2008,24(9):41-43.
  [2]朱淑鑫,谢忠红.浅谈语音识别技能的应用及发展[J].长春理工大学学报(高教版),2009,4(2):64-65.
  [3]赵力.语音信号处理[M].北京:机械工业出版社,2003.
  [4]崔文迪,黄关维.语音识别综述[J].福建电脑,2008,(1):28-29.
  
  福建省积极推进科普惠农服务站建设
  近日,福建省科协和省财政厅结合下发了《关于加强福建省科普惠农服务站建设的意见》(以下简称《意见》),旨在更好地调动福建省社会力量实施《全民科学素质行动打算纲要》,强化乡村科普基层组织建设,提升科协的乡村科普服务能力和水平,逐渐完善并延伸乡村科普服务链,促进海峡西岸经济区社会主义新乡村建设。
  《意见》 指出,福建省科协系统和财政部门将通力协作、亲密配合,本着“科协统筹、财政支持、基层建站;立足科普、服务农民;集成资源、变成合力;因地制宜、多方探索” 的原则,力争在2010年底前,推动全省获得国家级和省级科普惠农兴村打算表彰奖励的单位和个人建成科普惠农服务站,并带动有条件的专业技能协会、专业合作组织和行政村等建设科普惠农服务站,变成覆盖全省的科普事务组织网络。
  《意见》中详细规定了科普惠农服务站的场地、设施、标牌、队伍、制度、载体等标准,明确了“科协组织主要负责科普惠农服务站的建设、运行和管理,财政部门主要负责为科普惠农服务站的建设和运行提供资金和项目支持”的事务机制和各级科协组织的任务和职责。
  《意见》要求县级科协组织必须建设科普惠农服务总站,选聘各科普惠农服务站负责人,鼓舞在地方特色家当中建设科普惠农服务站,积极教导和支持科普惠农服务站的建设和管理,努力变成覆盖面广、运转流畅、联系紧密、长效运作的科普惠农服务站建设机制。

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1126/47261/
 与本篇相关的热门内容: