未来智讯 > 人脸语音识别论文 > 语音辨认尺度之痛

语音辨认尺度之痛

发布时间:2018-12-06 01:06:01 文章来源:未来智讯    
    语音辨认尺度之痛作者: 章 森 王 伟 华绍和   语音技艺涉及到语音编码、语音合成、语音辨认、语音技艺应用等多个技艺范畴。本文评论辩论的不是语音编码的尺度问题,而是对语音合成与辨认范畴的技艺尺度做一个切磋与探究。   语音技艺涉及到语音编码、语音合成、语音辨认、语音技艺应用等多个技艺范畴。今朝,关于语音编码,国际尺度化组织ISO和国际电信同盟ITU上已经制订了一系列的技艺尺度,离别应用在有线通讯、移动通讯、数字音响等范畴。可是,关于语音合成与辨认技艺的尺度还异国一个同一的规范,ISO和ITU在这些范畴也异国颁布技艺尺度和规范。虽然有些尺度化组织、切磋机构和至公司提议了各自的技艺规范草案,可是异国获得普遍的认可和支撑。国际上,很多跨国公司,如IBM、Microsoft、AT&T、Naunce、Sun System等对语音技艺的切磋已经持续了多年,对拟定语音技艺范畴的尺度很是关心并积极参预,但愿能把各自公司的切磋成果纳入到技艺规范和尺度中去,以期在猛烈的竞争中处于技艺的制高点。如今,与互联网相关的语音技艺应用范畴,有关的国际语音尺度成长麻利,形成了VoiceXML和SALT两大语音尺度阵营,并各自都得到了普遍的支撑。可是,对语音合成与辨认的焦点技艺,如体系框架、接口规范等还异国同一的尺度。本文不评论辩论语音编码的尺度问题,而是对语音合成与辨认范畴的技艺尺度做一个初步的探究。
  
  语音技艺尺度的三个层面
  
  虽然今朝国际上还异国同一的、获得普遍认可和支撑的语音合成与辨认范畴的技艺尺度,可是,这方面的切磋事情成长麻利,近几年推出了很多切磋成果,出格是W3C组织积极推动并公布了多个语音技艺应用方面的规范或尺度。例如, W3C公布了Voice Browser(语音扫瞄器)尺度的草案。在这个尺度中,Voice Browser尺度(草案)界说了几种支撑语音输入和输出的链接说话。这些链接说话使语音设备能够超过种种硬件和软件平台,出格是设计了关于对话、语音辨认语法、语音合成、天然说话语义和汇集可反复使用的对话组件的链接说话。这些链接说话和组件就组成了将来语音界面框架。如今,这个尺度组中的加入成员有AT&T、Cisco、Hitachi、HP、IBM、Intel、 Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。因为语音辨认与合成技艺还处在麻利成长阶段,制订出一套体面的技艺尺度很不轻易。关于语音技艺(除了语音编码)相关尺度的拟定事情首要集结在三个层面。
  语音技艺应用: 在这个层面上,首要法则在应用开辟中若何使用语音合成与辨认技艺,即应用步骤与语音合成/辨认引擎之间的通讯和谈/说话,很多跨国公司积极加入了这个层面的规范与尺度的草拟、制订事情,例如,如IBM、AT&T、Naunce、Microsoft、Sun System等,推动而且形成了VoiceXML和SALT两大语音尺度阵营。从开辟者的角度看,这些尺度都是面向应用体系开辟用的。万维网同盟W3C主持了VoiceXML的草拟和拟定事情,并从2000年起点陆续公布了VoiceXML的多个版本,个中包罗了语音辨认语律例范和语音合成符号说话等。这些尺度不仅使应用步骤能够移植,并且还可以使语法有关联。VoiceXML 2.0是一种符号说话,用于设立话音界面,相当于带语音功能的HTML。如今已经有数百个大的厂商开辟了基于VoiceXML的应用步骤。SALT表现语音应用符号说话,它是在现有的符号说话,如在HTML、XHTML的根本上,添加了对语音和多媒体功能的支撑而形成的。对语音应用,它首要存眷的是若何议决德律风获得语音服务。2002年,SALT同盟论坛公布了SALT技艺规范的草案,而且把它提交给了W3C,但愿能成为技艺尺度。加入和支撑SALT技艺规范的至公司包罗: Cisco Systems Inc., Comverse Inc., Intel Corp., Microsoft Corp., Philips Speech Processing 以及 SpeechWorks International Inc.等。
  语音辨认/合成体系本能评测尺度: 美国国度技艺与尺度切磋所(NIST)主持了这个方面的事情。从20世纪90年月中期起点,NIST就起点组织语音辨认/合成体系的本能评测事情。因为语音辨认/合成体系的兑现技艺种种各样,对它们的评测现实上是相当坚苦的。20世纪90年月初期的时辰,语音辨认/合成体系大量推出,但每每呈现下面的环境: 某个体系在推出时,声称该体系有很高的本能,但现实应用的时辰其本能与宣传的差异很大。是以,NIST以为应拟定出一套评价语音辨认/合成体系的技艺尺度,让全部的语音辨认/合成体系在这套评测尺度下进行评估,以获得客观的本能评价目标。在该范畴,NIST陆续拟定了评价语音辨认/合成体系的词错误率WER的谋略规范,说话模子的纷乱度的谋略规范,训练和测试语料的采用,体系相应时间尺度,合针言音天然度的评价规范,测试步骤的规范等。近年来,NIST又拟定了针对其它语种(如,汉语,日语等)的评价尺度。NIST的评价尺度麻利获得了语音辨认/合成范畴开辟者的支撑,越来越多的至公司积极加入NIST组织的评测举止,同时也推动了语音辨认/合成技艺的成长。国内的“863”智强人机接口专家组也开展了近似的事情,陆续拟定了针对汉语语音辨认与合成体系本能的评价规范。
  语音辨认/合成引擎及其开辟接口: 在这个层面上还异国一个技艺尺度或规范被普遍认可和采纳。ISO、ITU、NIST、W3C等尺度化组织都异国在该方面推出技艺尺度或规范。现实上,这方面的事情涉及到很多语音辨认/合成体系的具体兑现问题,而体系的兑现要领千变万化,难以用一个同一的规范和尺度来规范。虽然异国语音辨认/合成引擎及其开辟接口的同一的尺度和规范,但一些开辟厂商和切磋机构照旧拟定了各自的规范,在各自的语音体系中获得了兑现,并跟着语音辨认/合成体系的推出而公布。
  IBM在其推出的语音辨认与合成引擎ViaVoice中法则了开辟接口,供给了几百个开辟接口函数。Microsoft推出了基于它的语音辨认与合成引擎开辟语音应用的接口Speech SDK, 在个中也供给了近似的开辟接口函数。可是,IBM和Microsoft的语音辨认与合成引擎的兑现细节异国公然,也异国供给这方面的技艺规范。别的,美国的CMU大学、英国剑桥大学电子工程系的HTK开辟组都公布了绽放式的语音辨认与合成引擎的源码以及响应的开辟东西,它们的语音辨认与合成引擎的兑现要领纷纷被繁多的开辟者所鉴戒,从而形成了业界很有影响的开辟规范,可是,这些规范也不是尺度。今朝,有很多语音辨认与合成引擎,可是异国供给兑现的技艺规范,是以,这些体系的兑现和供给的接口不过遵守各自特殊的法则,异国规范化并获得普遍的应用。
  
  中文语音技艺尺度近况
  
  制订中文语音技艺的相关尺度,对促进中文语音技艺应用、推动中文语音财产成长、加强平易近族软件焦点竞争力均具有很是严重的意义。国度信息财产部、“863”专家组、国度技艺监督局和国度信息尺度化委员会离别于2001年、2002年、2003年召开了三届语音尺度钻研会,并于2003年11月由信息财产部科技司正式下文成立了“中文语音交互技艺尺度事情组”。
  “中文语音交互技艺尺度事情组”是由国内产、学、研、用等企奇迹单元以及大专院校等志愿结合组织、经信息财产部科技司核准成立的、组织开展中文语音交互范畴技艺尺度拟定和切磋举止的非营利性技艺事情组织。该事情组的首要事情义务是切磋并拟定与中文语音交互技艺相关的数据互换格局、体系架构与接口、体系分类与评测及数据库格局与标注等方面的尺度。今朝,语音合成和语音辨认通用尺度已正式立项为国度尺度,报批稿已经完成,多个财产有关的应用技艺尺度也正在拟定之中。
  国度“863”智强人机接口专家组在20世纪90年月中后期邀请国内的一些切磋机构和大学制订了针对汉语语音辨认与合成体系的评价规范,该评价规范应用到了历届对“863”支撑的汉语语音辨认与合成体系的评价过程中。若是从语音辨认与合成技艺尺度的三个层面查考,国内涵该范畴的切磋事情首要集结在体系本能的评价规范的制订上,至今还异国正式实行的国度尺度。可是,跟着国内的语音应用开辟地麻利成长,异国一个同一的技艺规范或尺度会造成很多开辟反复,资源糟蹋。
  例如,若是语音辨认与合成引擎支撑媒体资源把握和谈(MRCP), 语音应用开辟者选取MRCP,IVR和语音辨认与合成引擎开辟厂商之间的特有用的联贯器就不必要了。再如,跟着语音技艺和应用市场需求增大的同时,面对着纷乱体系互联的问题。在体系的互联接口、内容互换数据格局等方面异国一个人人配合遵照的尺度,其开辟难度、维护难度和运营难度长短常庞大的; 异国一个人人配合遵照的尺度,语音合成/辨认引擎与德律风设备、后台数据库、地舆信息、无线定位等其他构成局部完成通讯也长短常坚苦的,这些都成了故障语音应用大规模成长的绊脚石。是以,制订和切磋汉语语音技艺范畴的尺度已迫在眉睫。
  
  技艺尺度的首要内容
  
  为了顺应网上语音扫瞄、语音信息检索、交互式语音应用的成长需求,语音辨认与合成技艺的尺度制订事情的重点今朝应该集结语音技艺应用层面和语音辨认/合成引擎及其开辟接口上。如许的一个尺度或规范务必是有代表性的,通用的,被普遍接管和选取的; 显然,拟定一个如许的尺度不克不及凭空杜撰,要有尺度的使用机构或潜在的使用机构参预,还务必与国际上已有的近似的尺度接轨,与国际上的尺度化机构,如ISO、W3C、ITU等亲昵合作。值得注意的是,语音辨认/合成的兑现算法千差万别,该范畴的尺度或规范只可供给一个兑现框架,异国需要对具体的兑现算法和技艺细节进行约束。别的,语音技艺尺度还应该与具体应用无关,与语音辨认/合成引擎无关等。
  如上所述,语音技艺尺度(除了语音编码)的制订事情首要集结在三个各异的层面上。这三个层面尺度的内容离别是:
  语音技艺应用: 一般基于语音的应用都有如下图所示的架构(已简化)。
  在这个层面上,语音技艺尺度的首要内容是: 法则语音输入、语音输出、辨认了局、返回了局的格局和属性。语音输入和语音输出属于用户与语音旌旗灯号处置引擎之间的交互过程,以是,这局部也包罗语音用户界面的内容; 辨认了局是语音旌旗灯号处置引擎输出的了局,也是辨认了局执行引擎的输入,辨认的了局一般是文本或下令,若何将辨认了局格局化是该层面的首要义务; 返回了局是辨认了局执行引擎的输出,也是语音旌旗灯号处置引擎的输入,经语音旌旗灯号处置引擎处置后,以语音的体式格局返回给用户。为此,必要法则语音输出的参数格局,如韵律特性、重音特性和停留等。制订这方面的尺度内容还应该思虑汉语说话和语音布局的特殊性。如今已经公布的技艺尺度或规范首要是VoiceXML和SALT,它们都属于描绘和法则语音技艺应用的层面,都是基于符号说话的格局。
  语音辨认/合成体系本能评测尺度: 在这个层面上,语音技艺尺度的首要内容是: 评价语音辨认引擎的本能目标,首要包罗: 词汇量巨细、辨认体式格局、词错误率WER、说话模子纷乱度、相应时间、训练和测试语料等; 评价语音合成引擎的本能目标,首要包罗: 词汇量、天然度、清楚度、测试语料等。虽然我们能够鉴戒NIST在这方面的阅历和尺度,可是针对汉语语音辨认/合成体系本能评测尺度,我们不克不及照搬,务必思虑汉语的特点。
  语音辨认/合成引擎及其开辟接口: 在这个层面上,语音技艺尺度的首要内容是: 法则语音辨认引擎的输入/输出的格局,如输入语音的体式格局(已有的语音数据的输入/Mic语音输入)、语音数据的格局、语音特性向量的格局、把握参数的语义格局、输出是文本串的格局、拼音串的格局、音素串的格局等,供给给用户开辟接口的函数名、进口/出口参数、功能描绘等; 可是,语音辨认引擎的兑现细节不该该蕴含在此局部的尺度内,如引擎应该蕴含哪些模块,使用什么样的语音特性向量,若何谋略语音特性向量,若何设立模板,若何匹配谋略等,都不该该加以约束,而许可开辟者选取适当的算法兑现。关于法则语音合成引擎,必要法则的是: 输入的格局,如纯文本/拼音、带有把握串的文本/拼音、把握串的语义格局描绘、输出的格局、供给给用户开辟接口的函数名、进口/出口参数、功能描绘等; 可是,语音合成引擎的兑现细节不该该蕴含在此局部的尺度内,如引擎应该蕴含哪些模块,若何进行输入文本的剖析,若何分词,选取什么样的合成基元和算法等,都不该该加以约束。关于这局部尺度的内容,IBM和Microsoft语音辨认/合成引擎开辟文档供给了详细的开辟接口函数的信息,并且功能基原形同,能够为制订语音辨认/合成引擎开辟接口供给参考。语音辨认引擎开辟东西包HTK详细描绘了若何开辟一个新的语音辨认引擎,对制订该局部尺度的内容也具有参考意义。
  
  链接:推动技艺尺度制订
  
  语音技艺在网络扫瞄器和其他范畴的的需求越来越急迫,制订语音技艺尺度或规范的前提事情已经基本停当,但针对各个具体语种的事情还许多。万维网同盟W3C在拟定语音技艺尺度或规范方面做了大量事情,从2000年起点,先后公布了一系列用于语音辨认、语音合成的符号说话规范; 为了制订一种通用尺度,并被普遍选取,W3C邀请了国际上的至公司,如Sun、 IBM、Intel、微软等加入事情组。除了语音辨认/合成符号说话,事情组还在开辟语义翻译和呼叫把握扩展符号说话两种语音尺度。这些尺度都是W3C语音接口框架的严重局部,目的是为网络设立语音应用软件。
  据报道,W3C筹划提议针对通俗话的语音技艺尺度,并筹划参加日语、韩语等亚洲语种。到今朝为止,W3C推出的语音技艺尺度中最胜利的是VoiceXML 2.0,支撑VoiceXML 2.0的Web扫瞄器能够评释VoiceXML 2.0剧本并向用户出现语音信息,同时还能接管用户的语音央求,其功能相当于语音扫瞄器,大大促进了语音技艺在网络中的应用。

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1206/51768/
 与本篇相关的热门内容: