未来智讯 > 人脸语音识别论文 > 自动语音识别从幻想到现实

自动语音识别从幻想到现实

发布时间:2018-11-29 01:06:05 文章来源:未来智讯    
    自动语音识别:从幻想到现实作者: 辛妍   您是否曾经梦想有一天能用自己的声音抑制你的房子、汽车,甚至机器人管家?自动语音识别曾经不过科幻小说中的观念,而如今它是信息和通讯技能的一个重要组成局部,越来越成为我们日常生活的主料。当您让您的iPhone“呼叫Tom”的时候,你就在使用自动语音识别。
  大略地说,自动语音识别(ASR)是一种让计算机识别语音,并将它转换为书面文本的技能,是语音科学与工程发展最快的领域之一。作为新一代的计算技能,它是人机交互领域继文本到语音转换(TTS)和支持交互式语音响应(IVR)系统之后的又一个重大创新。自动语音识别系统的指标是正确、有效地将语音信号转换成文本,并且不受说话者、环境或者是使用的设备(即麦克风)的限制。
  语音识别技能首先是为残疾人设计的,它能够帮助那些肌肉骨骼残疾人士实现计算机上的最大生产力。虽然自动语音识别是一项几十年前就起初开发的技能,但直到Apple的虚拟个人助理SiriTM和IBM的WatsonTM的商业成功才真正展示了这一领域的重大突破。真相上,当2011年底Apple推出新一代的iPhone Siri语音识别软件时,在某种意义上意味着这个具有几十年历史的旧技能对普通消费者来说已经足够好了。
  全球语音识别市场的主导者是总部设在美国的Nuance Communications,其软件被认为是Siri的动力, 而它的大多数技能依赖于将语音转换为计算机能够理解的文本。Nuance的语音解决方案支持多达50种不同的语言,并且维护着世界上最大的语音数据图书馆之一;有近三分之二的财富100强公司依靠Nuance的解决方案;Nuance的解决方案已经应用到超过50亿部手机和7万万辆汽车上。在医疗方面,仅在美国就有超过3千家医院使用Nuance的医疗保健解决方案,超过15万的医生和护理人员使用Nuance的Dragon Medical系统。
  自动语音识别的发展
  最早尝试设计机器自动语音识别系统是在20世纪50年代,但以失败告终。第一次成功的语音识别成果产生在20世纪70年代,那时一般的模式匹配技能被推出。由于应用扩展有限,基于统计方法的自动语音识别技能也在同一时期起初开发。现在,统计技能在自动语音识别应用中盛行,常见的语音识别系统能够识别数千字。
  在20世纪90年代初,计算机语音识别技能出现了巨大的市场机会。但那时这些产品的早期版本笨重且很难使用,而且不得不做出妥协:它们或者被“调整”为要依赖于一个特定的说话者,或者是惟有小词汇量,或者是用一种相当程式化、僵化的语法。但是,在计算机行业中没有什么能够长期保持不变。20世纪90年代末期,出现了全新的商业语音识别软件包,它们比上一代产品更容易使用,也更有效。
  自动语音识别研讨的“神圣指标”是让计算机实时地以100%的正确度识别任何一个人说的话,并且不受词汇量、噪音、说话者特征和口音、或者说话渠道的影响。只管在这一领域的研讨已经有几十年了,但大于90%的正确率惟有在某种程度的制约下才能实现。例如对通过使用麦克风(小词汇量,无噪音)的连续数字的识别正确率能够达到99%以上;如果系统被训练学习某个说话者的声音,那么在可用的商用系统中较大的词汇也同样能被处理,不过正确率会降落到90%~95%;而不同说话者不同渠道的大词汇量语音识别的正确率不超过87%,并且处理时间是实时的数百倍。自动语音识别的本能可能受许多因素的影响,包括技能设计、语音输入的类型和质量、周边环境和用户特征等。当有更多的数据时,自动语音识别系统的本能能够更好,因为这样统计模型就能够建立在更大的基础上。Google的自动语音识别系统本能好的原因是它们存储了每个键入或说到Google中的搜索词,并基于搜索的共性来确定几率。
  自动语音识别的应用
  过去十年目睹了语音识别技能的显著改善,高本能算法与系统都已可用,使得自动语音识别的应用越来越广泛。IT主流使得选取自动语音识别在全球商业中变得更为关键,尤其是近年来互联网协议(VoIP)平台的扩散刺激了企业对语音识别技能的选取。以支持应用程序起初,语音识别解决方案已经演形成渗透包括航空公司、银行、仓储、库存管理和平安券商等多个行业的核心应用程序,并已经成为差异化服务和建立客户关系的工具。甚至医疗中心、医院、制药公司和其他医疗保健行业参与者也纷纷选取自助语音解决方案,因为这不但能降低运营成本,同时也提高了客户的隐私度。
  消费者对自动语音识别技能的应用程序范围从基本的依靠语音启动的报警系统和手机上的语音拨号,到智能手机应用中的语音股票报价和基于语音的电子邮件,以及更多的有针对性的解决方案,如互动娱乐和语音身份验证等。同时,自动语音识别也是汽车导航、远程信息处理系统和信息跟踪等的重要组成局部。随着对支持语言学习的创新应用的需求日益增加,使用自动语音识别技能的计算机辅助语言学习(CALL)系统也越来越受关注。
  语音自动转化为文本 我们都听过像Apple的Siri一类的能够自动识别我们说什么的系统,并想知道我们能否使用这种“自动语音识别”技能来替代手工转录口述内容的繁琐过程。
  自动语音识别的一个流行应用是语音自动转录为文本,比如将讲话转录成手机短信、自动数据输入、直接语音输入和制备结构化文档等。日本议会的转录系统就使用了自动语音识别。在这种应用下,声音用电子方式被转换成文本,并创建会议记录或者汇报草稿等。然后会议记录或者汇报草稿被格式化,编辑修正翻译、标点或语法中的错误,并且检查一致性和任何可能的错误。在有标准化术语的领域事务的转录员——比如放射学或病理学领域中——更有可能会遇到语音识别技能。在医疗界,医疗转录机能够听医生和其他专业医疗保健人员的录音,并把它们转录到医疗汇报、信件和其他行政材料中。这一应用具有提高事务输出效率并改善访问和抑制各种计算机应用的潜力。通过使用语音输入,自动语音识别应用程序绕过或尽量削减传统的手动输入方法(例如键盘、鼠标),因此也使它成为有严重的肢体或神经运动障碍人士的一种替代输入法。   同声传译 目前同声传译设备虽然尚未完善,但达到基本上可用的要求却是指日可待。2012年夏天,伦敦发明家Will Powell展示了一个进行英语和西班牙语即时互译的系统。对话双方都戴着与手机相连的耳机,而他们佩带的特制的眼镜能够像字幕一样把翻译的文字显示出来。这款即时互译系统在只要有手机信号的地方就能事务,但目前此系统需要耳机、云服务和笔记本电脑的支持,也就意味着它目前还只可是个设计原型。
  2012年11月,日本最大的移动电话运营商NTT DoCoMo推出了一项能够将电话中的日语与英语、中文或韩语互译的服务。通话的每一方都连续说话,然后该公司的计算机在几秒钟内将听到的内容翻译到所要求的语言,并将结果视情况适当地用男声或女声输出。
  在同声传译领域最诱人的成果可能来自Microsoft。2012年10月,当该公司的首席研讨官Rick Rashid出席天津的一个会议时,他的英语演讲现场就被翻译成了普通话,先是以字幕的形式显示在大屏幕上,接着以电脑合成的声音读出。最引人注目的是,Rashid先生的中文版演讲与他的英文版演讲具有相同的语气和音调。Microsoft认为,如果以说话者自己的声音传递译文,听众对错误的容忍度会提高,比如Rashid先生演讲的即时中文翻译虽然偶有错误,但仍收到热烈的掌声。
  自动语音翻译技能和智能手机中的应用目前可用的视频和音频数据量正在以指数级飞速增长,远远超过了人工翻译的承受力。当人工翻译不可行时,自动语音翻译能够发挥重要的作用,它不但让通讯成为可能,而且能够帮助从海量的数据中找出重要信息。自动语音识别和机器翻译能让会议跨越国界和语言地高效举行。
  不但是技能的进步支持自动语音识别的选取,商业趋势也如此。在各个行业中,对最新移动技能的需求与日俱增。为顺应这一趋势,许多语音翻译技能都能够装在智能手机应用或平板电脑上使用。
  不可否认,基于互联网的解决方案有巨大的优势,因为当人们说话时他们的数据能够被收集和分析,而识别正确率的一个主要因素是训练声学模型的数据量。越多的人对Google Search和Siri说话,这些系统的本能就会越好。然而如果一个系统只可联网使用,那旅行者的使用就会受限。而英国的一家叫Nouvaris的公司于2012年开发的Nova Search不需要连接到互联网就能使用。因此,当没有3G或无线网信号时,你仍然能让智能手机或计算机通过数据库进行搜索或回答问题。而当如果有互联网连接时,该技能能够在几秒钟之内就从庞大的数据库中完成筛选,到目前为止,它已对高达2.45亿条的列表起作用。由于是在智能手机上而不是互联网上解码语音,Nova Search能够更快速地完成语音指令的数据库搜索。
  Google和Siri基本上是将语音转换为单词流输入到网络搜索或人工智能口译员。而Nova Search不同是因为它直接用语音输入搜索自定义数据库,它会产生拼音符号流,并将其用在一个相当快的已获得专利的搜索技能中。通过使用以拼音为基础的方法,该软件能够一次搜索整个词组,而不是只搜索个别单词。虽然该软件仍然是在搜索互联网时最有用,但能在本地使用设备的语音识别功能仍具有一些关键的优势,因为需要发送的数据大大削减,而且很快,要知道语音是一种相当昂贵的信号发送。该软件的应用包括对智能手机或电脑说出目的地,然后它会帮你找到公共交通路线等。
  语音识别验证 在兴起的所有类型的生物特征识别应用中,基于语音的身份验证是用户排斥较小的平安验证,它是一种非接触式、非侵入式且易于使用的方法。使用说话人的语音进行验证能够有许多应用。例如,当仓库中员工在事务中走来走去时,能够给他们配备可穿戴/便携式语音数据收集系统使其进入仓库;能够对因酒后驾车而定罪的罪犯方便地进行远程酒精测试。联合移动定位系统,语音验证还能够用于跟踪保安人员,以确保他们自己在正常巡逻,而不是让他们的伙伴在帮他们巡逻。另外,语音验证也可作为多平安系统用来抑制过境。比如在Montana州的Scobey,气温偶尔会降至零度以下,于是大多数其他形式的生物识别技能不再可行,而语音验证装置却能够照常事务。
  在金融方面,语音验证也起初有了应用。Nuance公司2013年5月的调查数据显示,有85%的人对当前的身份验证方法不满,因为要登录到银行帐户、旅行网站或其他个人帐户时,必须要记住许多个人识别码、密码、平安问题及其答案;数据还显示,如果能有相同高的平安级别的话,90%的人希望能使用语音识别解决方案来代替传统的身份验证方法,因为语音识别技能能够通过每个人独特的声音来标识他,从而消除了要记住和键入密码、个人识别码的麻烦,让身份验证过程变得快速而大略。
  2013年5月,Barclays财富投资管理部署了Nuance的Free Speech语音识别方案,成为第一家在呼叫中心将被动的语音识别技能部署为主要客户验证手段的金融服务公司。自推出以来,超过84%的Barclays客户已在Nuance语音生物识别技能解决方案中注册,其中有95%的人第一次使用时就成功验证了身份。更妙的是,客户与联系中心的经验反馈也有所改进,93%的客户对新的身份验证系统就速度、易用性和平安性的评分至少为90分。Nuance的语音生物识别技能让象Barclays银行这样的组织通过更直观、更透明的认证方式重新定义它们的客户服务经验,减轻了客户和服务代办的负担。
  汽车上的应用 技能的发展一日千里,这极大影响了现代汽车中的驾驶员界面。先进的驾驶员辅助系统、自动泊车制动系统和无钥匙点火等创新从根本上改变了驾驶员界面的构成。这些新的舒适性、信息和娱乐系统要求驾驶员处置大量的按钮、旋钮和屏幕,并且这一需求还在不时增加。移动智能手机和平板电脑也被越来越多地纳入汽车中,以满足驾驶员在行车中对连接和新服务的需求。对驾驶员来说,这显然带来了驾驶干扰和信息超载的风险,尤其是这些主要车辆抑制还不过冰山一角。而最有前景的解决方案似乎是语音抑制,并且这早已是汽车行业的愿望。2013年现代的下一代汽车将有自然语言的语音启动电话拨号、消息听写、目的地输入等,并能在车内或在线音乐服务中搜索音乐。但是需要认识到的是,即使有语音抑制,驾驶员分神的风险依然存在。   自动语音识别的其他应用 移动广告是数字广告中增长最快的领域之一。根据eMarketer的数据,2012年全球移动广告支出达84.1亿美元,是2011年的40亿美元的两倍以上,并且预计到2013年达到近370亿美元。作为创新性的新的移动广告格式,语音广告是游戏准则改变者,它能够让人们与他们喜欢的品牌有动人有趣的双向对话,品牌能够通过让消费者在广告中畅所欲言而令其对品牌产生持久的印象。在从前,从来没有一个品牌可以有超过10亿用户的个人对话,而这恰是品牌一直渴求的与公众的密切关系。目前Nuance VoiceAds已经完全能够做到这一点。
  2013年,松下新的高清智能电视SMARTVIERA选取Nuance配备的Dragon TV系统,人们能够坐着通过语音来查找内容、搜索网页、抑制音量等, 创造了更多的互动和智能电视体验。
  另一个更为有趣的应用发生在俄罗斯,该国最大的零售银行联邦储蓄银行(Sber bank)开发了一种使用语音识别来测谎的自动提款机。该机器通过将客户对一些问题的反应与一个记录审讯中说谎人的数据库对照,从而确定客户是否说谎。
  自动语音识别的未来
  除了从事自动语音识别的研讨和开发的科学家和技能人员,大多数人考虑自动语音识别时低估了它的复杂性。它不但是自动的文本到语音,复杂的识别任务的一个必要条件是自动语音识别需要有大的数据容量和存储器的快速计算机,并且需要语音科学家、语言学家、计算机科学家、数学家和工程师的参与。这些参与者应用神经网络、心理声学、语言学、言语感知、人工智能、声学语音学等领域的知识,为实现人类和机器之间的自然会话这一最后指标共同努力。
  过去三十多年来,语音识别研讨的特点是小改进的稳步积累。由于语音识别本能的提高和更快计算机的可用,商业研讨和其他学术研讨继续把重点放在日益难以解决的问题上。其中一个关键领域是提高语音识别本能的健壮耐用性,这不但是指抗噪音方面,也包括在所有可能导致本能大幅降落的情况下的健壮耐用性。另一个关键领域关注的是一个机会,而不是一个问题,因为这项研讨尝试利用许多应用中的大量高达数百万小时的可用语音数据。如果靠人来把这些语音转录成文本,成本非常高昂,因此研讨关注的是开发一种新的机器学习的方法,使之能有效地利用大量未标记的数据。还有一个研讨领域是更好地理解人的能力,并使用这种理解来提高机器识别本能。
  自动语音识别产品将会不时完善,并被更多地使用。虽然在键盘上打字相对容易,但很难有人能够像说话一样快速正确地键入文字。基于我们生活的现代世界里时间是最重要的这一真相,自动语音识别将帮助人类提高生产力,让我们可以更容易更迅速地运行搜索查询、撰写重要文档和管理我们的日常生活。此外,企业还将能在没有互联网连接时随时使用相应的应用程序,而目前在旅行时这些应用并不老是可用的。
  下一代的移动语音翻译应用将会针对特定的行业量身定制,这种特定的环境或目的假定能够提高正确性。1993年,自动语音识别系统的正确率惟有10%,到1995年大概为48%,而2001年系统的正确率可达80%以上。基于自动语音识别系统正确性的不时提高,加之人类自身听语音演讲时正确率可达96%这一真相,相信在未几的将来,语音识别设备就能以比我们自己还要高的正确度来抄写我们的语言。
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1129/48669/
 与本篇相关的热门内容: