未来智讯 > 人脸语音识别论文 > 辨认语音的几种依据
    辨认语音的几种依据作者: 刘 加   语音辨认技艺便是议决机械辨认和领会过程把语音旌旗灯号转折为响应的文本或下令; 语言人辨认技艺便是让机械议决你的声音纹路确定你的身份; 语种辨认技艺便是让机械辨认你所说的说话的种类,如是英语照旧汉语等。
  
  近二十年来,语音辨认技艺取得显著前进,起点从尝试室走向市场。专家预计,将来10年内,语音辨认技艺将进来工业、家电、通讯、汽车电子、医疗、家庭服务、积攒电子产物等各个范畴。
  因为朗诵体式格局的赓续语音和平日天然白话化语音(Spontaneous)发音体式格局有很大的各异,德律风语音平日蕴含更多的情况噪声、信道噪声和语音失真,是以若何有用提高天然白话化语音德律风语音和广播语音辨认本能是今朝严重挑衅。今朝语音辨认技艺切磋起点重点向德律风语音和广播语音辨认切磋偏向成长。行使今朝已经比力老练的技艺,开辟针对种种应用的语音辨认产物,包罗语音专用芯片、嵌入式语音辨认体系、白话对话体系、声纹辨认体系等,也是今朝语音技艺范畴的热门之一。
  
  语音辨认总体模子
  
  大词汇量赓续语音辨认体系的切磋首要集结在声学模子和说话模子两个方面。语音旌旗灯号自己的特点造成了语音辨认的坚苦。这些特点包罗多变性、动态性、瞬时性和赓续性等。语音辨认和领会是一项很是坚苦的义务,务必设立在从声学、语音学到说话学的常识为根本的语音处置机制上,才有可能得到高本能的主动语音辨认体系。今朝主流的语音辨认的理论是基于统计模式辨认原理。语音辨认体系平日假如语音旌旗灯号是由一系列编码构成。输入的语音波形起首被转换为一组分离的参数矢量。平日用O=o1,o2,∧,or表现语音发声一组待辨认的特性参数矢量(窥察矢量),个中每个矢量时间隔断典型取值为10ms~20ms。辨认器的作用是把输入的语音特性矢量映射为潜在的文字序列。
  语音辨认的总体模子便是要把可行使的语音学和说话学信息用一个同一的模子来进行描绘,以获得尽可能准确的句子辨认。假如一句语音能够由字串W=w1,w2,∧,wr构成,辨认体系要完成的义务是在给定窥察矢量环境下,寻觅最大可能(几率最大)的字串W。汉语和西方说话辨认体系各异的处所在于汉语中的同音字和同音词比力多,汉语语音辨认体系务必蕴含音字转换的过程。
  设立语音辨认模子的义务便是要把检测到的声学层语音信息议决适当的数学公式将辨认了局W与O的关系表现出来。今朝被以为最有用的语音辨认模子便是基于统计的隐含马尔可夫模子。凭据统计模式辨认理论,在已知特性O的前提下,选择能够行使种种信息使后验几率最大。具有最大后验几率的了局为体系最可能的辨认了局。
  语音辨认总体模子反映了现实中语音辨认体系要解决的四个具有挑衅的问题。起首,一个稳健的特性参数提取算法是务必的,而且该参数能很好地实用于语音的声学层模子。第二,务必凭据各异说话的发音特点,设立具有很好辨别力的声学层模子。模子参数务必可以从并不充分的语音数据中训练出来,并表示出稳健性。第三,务必设立一个说话模子,凭据前面的汗青说话模子可以教导向前搜罗的过程。完善的说话模子还务必蕴含处置新词的才力,而且尽可能做到和文本的内容无关。第四,因为词汇数目是庞大的,一个适用体系务必有适合声学模子和说话模子的剪枝算法。
  
  语音辨认特性
  
  采用语音的辨认特性参数是语音辨认体系中很是严重的一个方面。采用的特性应该对发音模板有较大的区分度和抗噪声本能。语音旌旗灯号能够算作是准安稳的随机过程。在10~25ms的时间局限内语音旌旗灯号能够被以为是安稳的,是以能够分帧对语音旌旗灯号进行剖析。对语音辨认体系,典型帧长取值为25ms,帧移为10ms。汉明窗(Hamming)平日在剖析中使用以提高剖析正确性。预加剧滤波器平日被用于赔偿因为嘴唇辐射引起的高屡屡谱的衰减。
  今朝比力有用辨认参数为Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients MFCC)。MFCC参数都相符人耳的听觉特征,在有信道噪声和频谱失真环境下,该参数表示的比力稳健。由线性展望系数(Linear Prediction LP)导出倒谱系数也是一种常用的语音辨认参数,在静寂的情况下,线性展望倒谱系数和MFCC系数的本能相差未几。迩来切磋证明用嗅觉加权的线性展望(Perceptually Weighted Linear Prediction Cepstral Coefficients PLPCC)倒谱系数能有更好的辨认稳健性。
  在语音旌旗灯号特性提取过程中,平日做一个不切确的假如,即各异帧间的语音是不有关的,因为人发音的物理前提限定,各异帧间语音务必是有关的,改变是赓续的。能够用一阶差分系数和二阶差分系数来类似描绘语音帧间的有关性。平日把剖析得出的语音旌旗灯号的倒谱特性称为语音的静态特性,而把这些静态特性的差分谱称为语音旌旗灯号的动态特性。这些动态信息和静态信息成互补,能很大水平提高体系的辨认本能。更好的语音动态特性能够用语音的帧间有关模子来描绘,可是,其运算量较大。
  简略添加语音特性参数的数目并纷歧定可以提高体系的辨认率。添加模子参数的虽然能提高体系的辨别才力,但同时也添加了体系的搅浑性。是以若何有用的采用特性参数是一个严重问题。今朝一种从多种参数中采用严重特性的要领是使用线性辨别剖析(Linear Discriminant Analysis LDA),议决LDA能够把原始的特性参数变换到一个维数更低的矢量空间,其改良要领包罗异方差区分剖析(Heteroscedastic Discriminant Analysis HAD)和搅浑数据剖析(Confusion Data Analysis CDA)。
  
  声学模子
  
  辨认体系的声学模子是辨认体系的底层模子。声学模子是语音辨认体系中最为关头的一局部。声学模子的目的是供给一种有用的要领谋略语音的特性矢量序列和每个发音模板之间的距离。人的发音在每一时刻都受到其前后发音的影响,为了模拟天然赓续语音中协同发音作用和辨别这些各异发音,平日要求使用纷乱的声学模子。声学模子的设计和说话发音特点亲昵有关。
  汉语的发音特点和西方说话有很大的各异。汉语的每个字发音较短,为带调单音节。它属于有调说话,调对区分汉字的意思起了很大的作用。汉语的每个发音中的子音局部发音相对较短且词间的连音水平不如英语那么强。针对汉语的这些发音特点,今朝的切磋证明取半音节作为辨认体系的辨认单位就可以很好的描绘汉语语音的细节。这些半音节平日称为声母和韵母,固然若是详细思虑到声母的左半联贯关系和韵母的左半和右半联贯关系,还能够细化为声韵母的三音子(Triphone)模子。进一步思虑前面两个和后面两个发音关系,还能够细化为五音子。三音子平日比二音子的数量大许多,可多达上万个。太多的模板,则要求很是大量的训练数据,才气到达稳健的参数估值。
  基于一种说话学常识组成的讯断树(Phonetic Decision Trees)要领能够联合说话学常识,由数据驱动要领凭据语音数据几多,针对由说话学归纳出来的发音特点对各异三音子组成在最大似然规则下进行聚类。保证天生模子在给定的数据下,模子参数可以稳健的估值。该要领收到优良的效率,有用地提高了体系的辨认率。对统计模子语音辨认体系来说,语音训练的数据相对来说老是不敷的。提高模子参数估值稳健性的另一种设施是使用绑缚技艺,绑缚技艺使一些各异的发音模子在某些状况上共享模子参数,这能够很大水平上削减对训练数据的要求。
  今朝隐含马尔可夫模子HMM仍然是大词汇量语音辨认算法的主流,它能对语音的时变性和动态性有很强的模子才力。HMM的从左到右状况转移模子,很好地描叙了语音发音特点。HMM能够分为赓续密度隐含马尔柯夫模子、半赓续隐含马尔柯夫模子和分离隐含马尔柯夫模子。平日赓续密度隐含马尔柯夫模子精度最高,但谋略量较大。每个发音音素平日选取3个状况隐含马尔柯夫模子。其布局如附图所示。思虑到在各异的帧上噪声、清音、浊音的短时能量和过零率有重叠的局部,语音旌旗灯号的端点检测正确率不行能很高,尤其是在噪声较大的情况下。为解决这个问题,还务必设计可以模仿语句发端、结尾静音模子,以及句子中词间短停息顿静音模子,要注意的是这两种静音模子有各异的统计特征和模子布局,务必离别加以思虑。
  
  
  语音辨认体系这一层模子平日称为声学模子,它是辨认体系的最根本局部,对体系本能起到最关头的作用。近年来基于几率图模子和基于随机段模子的辨认算法切磋也取得显著进展,其辨认率在必然水平上好于隐含马尔可夫模子的辨认体系,并起点受到崇尚。
  
  说话模子
  
  一个辨认体系务必在每一时刻检测是否碰到语音的发音界限,如许很多不准确字或词的猜想将会从不准确段的语音中辨认出来。为了袪除这些猜想字词之间的混沌性,说话模子是务必的。说话模子能够供给字或词之间的上下文信息和语义信息。因为语音旌旗灯号的纷乱性,各异音的发声类之间存在着叠接表象,有些单音若是异国前后遐想即使人来分辩也是很坚苦的。议决说话模子能够提大声学模子的区分度,说话模子能够是说话中一些准则或语法布局,也能够是表示字或词的上下文之间的统计模子。今朝比力老练的要领是统计说话模子,它议决对大量文本文件的统计,得出了各异字词之间先后产生的统计关系。
  说话模子是近年来天然说话处置范畴切磋的热门之一。虽然语音辨认的声学模子能够做到于义务无关,但常规的说话模子今朝还做不到这点。因为说话模子都是议决特定方面内容文本训练而成的,是以从新闻语料训练出来的说话模子,不克不及够用于辨认文学方面的相关内容,这是常箴言言模子的首要弱点之一。
  说话模子不仅能用于语音辨认,并且在音字转换、汉语分词、词性标注中也有应用。汉语的同音字表象很重要,虽然汉语惟有无调拼音408个,有调拼音1254个,但平均一个有调拼音要对应5、6个汉字,有的高达十几个。汉语可读的文本是汉字体例,以是音字转换是语音辨认的严重程序。
  说话模子不仅能够用于语音辨认体系中,还能够用于一般的音字转换体系中。
  在转换中能够用基于词的说话模子或基于字的说话模子。尝试证明,基于词的说话模子要比基于字的说话模子更切确。表中对应音字转换的数据是在三元文法说话模子下转换字准确率的百分比。
  表中的Perplexity平日称为说话模子困惑度或分支度,它能够用于器量说话模子的本能,证明在说话模子的限定下,每个词后面平均可以联贯词的个数,其值越小讲明说话模子越有用。反过来,若是保留体系辨认率稳定,则Perplexity越大,体系对说话文法的限定也越宽松。从表中能够看出,基于词的说话模子确实比基于字的说话模子效率好。基于词的模子Perplexity低,并且音字转换正确率高,可是机关基于词的说话模子比力纷乱,机关起来也比力繁难。
  
  链接:语言人自顺应
  语言人之间的差别对非特定人语音辨认体系造成的影响首要有两方面缘故: 1.当某一使用该体系的语言人语音与训练语音库中的全部语言人的语音都有较大的差异时,对该使用者的语音辨认将很难进行; 2. 训练一个较好的辨认体系必要采集数目很大的语言人的语音用于训练,让训练语音库笼盖更为普遍的语音空间,如许虽然能够减低缘故1中的影响,但同时会造成辨认体系参数分布较广,而不是较为锋利的分布,造成辨认本能的广泛降落。
  特定人辨认体系虽然能够征服非特定人体系的以上弱点,但该体系必要使用者录入大量的语音用于训练,给使用者带来很大的未便,对付大词汇量的辨认体系,所需的语音训练的数目是令人无法忍受的。
  近年来,人们选取语言人自顺应(Speaker Adaptation, SA)算法有用地解决了特定人和非特定人体系各自的弱点。该方案行使体系使用者的小数训练语音,调解体系的参数,使得体系对付该使用者的本能有较着的提高。与非特定人辨认体系比拟, 语言人自顺应体系因为思虑了用户的特殊信息,是以辨认本能优于非特定人语音辨认体系; 而与特定人语音辨认体系比拟,语言人自顺应体系纳入了非特定人辨认体系的先验信息,必要用户供给的训练音数目远低于特定人语音辨认体系,有更好的适用性。是以非特定人+自顺应成为当前各语音辨认体系选取的适用框架。
  按照训练语音猎取的各异体例,自顺应体式格局能够分为: 批处置式: 训练语音是由用户一次性录入,然后进行同一的自顺应训练,更新体系参数; 在线式: 训练语音是用户使用辨认体系时所辨认的语音,体系凭据累积的统计量,按照必然时间隔断更新体系参数; 立刻式: 训练语音是当前正在辨认的语音,该模式与在线式模式间的差异在于立刻式自顺应只行使当前的语音作自顺应,异国在线式自顺应的累积过程。
  从适用角度看,在线式和立刻式自顺应模子因为不必要用户一次性输入一批训练语音,以是对用户的界面更具友好性。从兑现的角度看,批处置式自顺应的兑现难度低于在线式和立刻式。而从自顺应的本能看,批处置与在线式的算法性子是一律的,是以本能也基本一律,立刻式自顺应因为异国累积的过程,行使语音的信息少,以是本能劣于前两者。

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1206/51766/
 与本篇相关的热门内容: