未来智讯 > 人脸语音识别论文 > 语音辨认技艺的成长

语音辨认技艺的成长

发布时间:2018-12-06 01:06:01 文章来源:未来智讯    
    语音辨认技艺的成长作者: 王致信 胡文东   【摘 要】语音辨认技艺切磋让人加倍利便地享福到更多的社会信息资源和当代化服务,对任何事都可以议决语音交互的体式格局。   【关头词】语音辨认技艺;成长趋向
  语音辨认是一门交织学科。语音辨认切磋履历了50多年的切磋进程,颠末50多年的堆集切磋,得到了庞大的进展。出格是近20年来,语音辨认技艺取得了光鲜明显的前进,并逐渐的走向市场。在将来的日子里,语音辨认技艺将应用更为普遍。
  一、语音辨认技艺概述
  语音辨认是解决机械“听懂”人类说话的一项技艺。作为智能谋略机切磋的主导偏向和人机语音通讯的关头技艺,语音辨认技艺一直受到列国科学界的普遍存眷。现在,跟着语音辨认技艺切磋的突破,其对谋略机成长和社会糊口的严重性日益凸现出来。以语音辨认技艺开辟出的产物应用范畴很是普遍,如声控德律风互换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业把握、语音通讯体系等,几近深入到社会的每个行业和每个方面。
  普遍意义上的语音辨认按照义务的各异能够分为4个偏向:语言人辨认、关头词检出、说话辨识和语音辨认。语言人辨认技艺因此话音对语言人进行区别,从而进行身份辨别和认证的技艺。关头词检出技艺应用于一些具有特定要求的场所,只存眷那些蕴含特定词的句子,例如对一些特殊人名、地名的德律风监听等。说话辨识技艺是议决剖析处置一个语音片段以判断其所属说话种类的技艺,性子上也是语音辨认技艺的一个方面。语音辨认便是平日人们所说的以语言的内容作为辨认对象的技艺,它是4个方面中最严重和切磋最普遍的一个偏向,也是本文评论辩论的首要内容。
  二、语音辨认的切磋汗青
  语音辨认的切磋事情始于20世纪50年月,1952年Bell尝试室开辟的Audry体系是第一个能够辨认10个英文数字的语音辨认体系。
  1959年,Rorgie和Forge选取数字谋略机辨认英文元音和联力词,从此起点了谋略机语音辨认。
  60年月,苏联的Matin等提议了语音告终点的端点检测,使语音辨认程度较着上升;Vintsyuk提议了动态编程,这一提法在以后的辨认中不行或缺。60年月末、70年月初的严重成果是提议了旌旗灯号线性展望编码(LPC)技艺和动态时间规整(DTW)技艺,有用地解决了语音旌旗灯号的特性提取和不等长语音匹配问题;同时提议了矢量量化(VQ)和隐马尔可夫模子(HMM)理论。
  80年月语音辨认切磋进一步走向深入:HMM模子和人造神经网络(ANN)在语音辨认中胜利应用。1988年,FULEE Kai等用VQ/I-IMM要领兑现了997个词汇的非特定人赓续语音辨认体系SPHINX。这是天下上第1个高本能的非特定人、大词汇量、赓续语音辨认体系。
  进来90年月后,语音辨认技艺进一步老练,并起点向市场供给产物。很多发财国度如美国、日本、韩国以及IBM、Apple、AT&;T、Microsoft等公司都为语音辨认体系的适用化开辟切磋投以巨资。同时汉语语音辨认也越来越受到崇尚。IBM开辟的ViaVoice和Microsoft开辟的中文辨认引擎都具有了相当高的汉语语音辨认程度。
  进来21世纪,跟着积攒类电子产物的遍及,嵌入式语音处置技艺成长麻利[2]。基于语音辨认芯片的嵌入式产物也越来越多,如Sensory公司的RSC系列语音辨认芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开辟中获得了普遍的应用。在软件上,今朝比力胜利的语音辨认软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的赓续语音辨认体系。
  三、语音辨认技艺的成长近况
  语音辨认技艺议决全球科学家的通力合作,履历半个多世纪的切磋,今朝已经成长到了接近适用的阶段。在尝试室情况下,大词汇量的朗诵式赓续语言的宽带语音旌旗灯号的平均辨认率能够到达90%以上。正式有了云云高的辨认率之后,语音辨认技艺慢慢地从尝试室演示体系逐渐走向适用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机体系的呈现,使“语音辨认”逐渐进来民众视线,引起了普遍的社会存眷。
  因为校对和更正辨认的错误很繁难和糟蹋时间,如许便贬低语音辨认的上风。同时,因为使用的情况或发言口音风俗等因素的影响,语音辨认的内容大大贬低,辨认的内容不克不及到达100%的准确,以是许多人以为今朝的语音辨认体系还无法餍足适用要求。
  今朝,AT&T和MIT等将语音辨认技艺应用在一些有限词汇的特定义务上,如德律风主动转接、德律风查询、数字串辨认的义务中,当发言的内容是体系所存储的内容存在的,且使用情况的声学特征与训练数据的声学特征相差不太大时,语音辨认的准确辨认率能够接近100%。可是,在现实使用中若是这些前提被扯后腿,则会对辨认体系造成必然的影响。
  我国的语音辨认切磋一直紧跟国际程度,国度也很崇尚。国内中科院的主动化所、声学以是及清华大学等科研机构和高校都在从事语音辨认范畴的切磋和开辟。国度863智能谋略机专家组为语音辨认技艺切磋专门立项,并取得了高程度的科研成果。我国中科院主动化所研制的非特定人、赓续语音听写体系和汉语语音人机对话体系,其正确率和体系相应率均可达90%以上。
  四、语音辨认技艺成长趋向
  语音作为当前通讯体系中最天然的通讯前言,语音辨认技艺长短常严重的人机交互技艺。跟着谋略机和语音处置技艺的成长,语音辨认体系的适用性将进一步提高。应用语音的主动领会和翻译,可袪除人类相互交往的说话窒碍。外洋已有多种基于语音辨认产物的应用,如声控拨号德律风、语音记事本等,基于特定义务和情况的听写机也已经进来应用阶段。这预示着语音辨认技艺有着很是普遍的应用范畴和市场远景。跟着语音技艺的前进和通讯技艺的飞快成长,语音辨认技艺将为网上会议、贸易经管、医药卫生、教诲培训等各个范畴带来极大的便当,其应用和经济、社会效益远景很是优良.   虽然语音辨认在畴昔的20年里有了很大的成长,可是,仍然存在许多的不及,有待于进一步的索求,具体可分为以下几个方面:
  1.提高靠得住性。语音辨认技艺必要能扫除种种声学情况因素的影响。在比力嘈杂的公共情况中,人的意识会有意识的扫除非必要的声学情况因素,这对语音辨认体系而言,是很难做到的。别的,在日常糊口中,人类的说话经常具有较大的不确定性,比力随便,并带有较着的言语风俗。这同样会给语音辨认体系很大的辨认繁难。今朝,在提高语音体系在各异情况中的靠得住性,同时要应用当代技艺让语音辨认体系加倍智能化,掌握人们说话随便性的局部纪律,以到达最好的辨认效率。
  2.添加词汇量。体系能够辨认的词汇的数目是体系可以做什么工作的一个严重器量。一个语音辨认体系使用的声学模子和语音模子若是太甚于范围,当用户所讲的词汇超出体系已知的局限时,则语音辨认体系不克不及正确的辨认出响应的内容,好比,当忽然从中文转为英文、法文、俄文时,谋略机就会经常输出杂乱稀罕的了局。可是,跟着体系建模要领的不息改良、搜罗算法效果的提高以及硬件资源的成长,将来的语音辨认体系可能会做到词汇量无穷制和多种说话夹杂,如许用户在使用的时辰能够不用在语种之间来回切换,如许就能大大削减词汇量的对语音辨认体系的限定。
  3.应用拓展。语音辨认技艺能够用于把费脑、吃力、费时的机械操作酿成一件很轻易很有趣味性的事,好比,当人们呈现手忙、手不克不及及以及分身无术的场景时,议决语音辨认体系的模子机关,则可以在象驾驶室、危急的工业场所、远距离信息猎取、家电把握等各个方面,语音辨认技艺可能带动一系列极新或更便捷功能的设备呈现,加倍利便人的事情和糊口。其应用的局限和远景很是普遍。不仅可以应用于日常糊口,更严重的会带来出产体式格局的革命,是下一代智能化把握的根本。
  4.贬低成本减小体积。微型化是语音辨认技艺贸易应用的另一个严重路子,其推广程这取决于语音辨认技艺自己前进的水平,同时与微电子芯片技艺的进一步成长关系亲昵。将具有进步前辈功能和本能的语音辨认应用体系固化到加倍渺小的芯片或模块上,能够大幅度贬低产物成本和体积,产物一定受到积攒者的青睐,语音辨认体系和微电子芯片技艺的成长是会引领我们的信息技艺革命到一个新的台阶。
  21世纪是信息和网络的时代,Internet和移动通讯、固话通讯的网络把全球各地联贯起来。天然白话对话、电子商务、信息索要、数字藏书楼、语音翻译、长途教诲等一系列的人类举止都可在网络上兑现。语音辨认体系的呈现,会让人加倍解放的沟通,让人在任何处所,任何时间,对任何事都可以议决语音交互的体式格局,利便地享福到更多的社会信息资源和当代化服务。这一定会成为语音辨认技艺切磋和应用的严重成长趋向。
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1206/51764/
 与本篇相关的热门内容: