未来智讯 > 人脸语音识别论文 > HMM模型在语音识别研讨中的应用

HMM模型在语音识别研讨中的应用

发布时间:2018-11-21 01:06:05 文章来源:未来智讯    
    HMM模型在语音识别研讨中的应用作者:未知   摘要:语音识别是人工智能最基础性课题,该课题研讨者通过对隐马尔可夫模型这一数学模型的扩领域应用,解决了声学、语言学、句法等统计知识相关性问题。文章系统阐述了隐马尔可夫模型原理以及在语音识别中的应用过程,从而为更多研讨者明白和认识。
  关键词:隐马尔可夫模型(HMM);数学模型;语音识别
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)34-1966-03
  The Application of HMM in Speech Recognition
  WANG Kun-qing
  (Dongying Municipal Bureau of Finance, Dongying 257061, China)
  Abstract: Speech recognition is one of the basic tasks in the research of artificial intelligence. Researchers apply such mathematic model as Hidden Markov Model to this field and solve acoustic, linguistics, syntax, such as statistical knowledge of the relevant issues. This article systemaficly expounds the principle of the mathematic mode-HMM and process of its application in the speech recognition in the aspects of speech recognition,so more researchers will have a better understanding about HMM.
  Key words: hidden markov model; mathematical model speech; recognition
  
  1 引言
  语音识别是自然语言理解的基础性课题,旨在使计算机可以在一定程度上识别理解人类的语音。从20世纪50年代初,一些学者试图设计了第一个自动语音识别系统及孤立词的数字识别系统研讨起初,到60年代中期才逐渐取得实质性的进展,Reddy利用音素的动态跟踪技能在连续语音识别中的初步研讨,到70年代日本学者提出的动态时间弯折算法DTW(Dynamic Time Warping)对小词表的研讨获得了成功;以及在语音编码中使用的线性预测编码(LPC)技能成功的应用到语音识别系统中,再到了80年代从基于模板匹配的方法到统计模型的方法的转换,尤其是隐马尔可夫模型HMM(Hidden Markov Model)技能被应用到语音识别中,由于该模型具有把从声学―语言学到句法等统计知识全部集成在一个统一框架中的优点,因此它被广泛地应用到语音识别研讨中,到目前为止,HMM技能仍然是语音识别研讨中的主流技能。
  2 隐马尔可夫模型
  HMM模型是一个双重的随机过程,即一个隐藏的(不可观察的)具有有限状态的马尔可夫链和一个与马尔可夫链状态相关联的随机函数集(可观察的)。这样,语音等时变信号的功率谱能够唯一地由模型对应的状态的随机函数决定,而信号频谱时间的变化则由隐藏的马尔可夫链的转移几率规律决定,因此相当符合建立语音信号的统计模型。
  2.1 马尔可夫链
  对于某一个随机试验,设Ω是由所有样本点{w}构成的样本空间,ξ是Ω上随机事件构成的事件聚集,称为σ―代数,P是定义在ξ上的几率。则称定义在几率空间(Ω,ξ,P)上的随机变量族X={x,(w),t∈T}为随机过程。其中,T为一参数集。可将随机过程看为二个变量的函数xt(w)=x(w,t),其中,t∈T;w∈Ω。对于固定的w,xt(w)是个随机变量,记为xt。若将参数t看作时间,那么xt就表示随机系统在时刻t所处的状态。若T是一个含有可列元素的无限集,则称该随机过程为离散随机过程或随机序列。一个随机过程所有可能取值的聚集称为该过程的状态空间,记为S。 若S是可列集或有限集,则称此过程为链。
  设随机过程X={xn,n=0,1…}是定义在(Ω, ξ, P)上的离散随机过程,其状态空间S为有限集或可列集。并且X具有无后效性即马尔可夫性:
  对任意非负整数n,及任意状态i0 ,i1, …in+1∈S;
  只要P(x0= i0,x1= i1,…,xn= in)>0
  总有P(xn+1= in+1|x0= i0,…,xn= in)=P(xn+1= in+1| xn= in)
  则称此过程为马尔可夫链。
  2.2 HMM状态随机过程
  一个隐马尔夫模型是由一系列转移弧连接起来的状态的聚集。每个转移弧包含两个几率:转移几率,即为经过这条转移弧的几率。输出几率密度,是在这条弧上发射固定的符号的几率。一个HMM能够由它的三个特征参数矢量或矩阵π,A,B完全确定。定义为:
  λ={π,A,B}
  其中,π是初始几率分布;A={αi,j}是状态转移几率分布矩阵,其中αi,j是从状态i到状态j的转移几率;B={bi,j(k) }是输出几率分布矩阵,其中bi,j(k)是从状态i到状态j的转移弧上发射的输出几率。
  HMM的过程是:
  1) 根据初始状态分布几率π,选择一个初始状态。置观察时间为t=1;
  2) 根据B,得出在qt状态下(t时刻),观察符号的几率分布;
  3) 根据A,由t时的qt状态转移到t=t+1时的状态,并置t=t+1;
  4) 如果t�T(观察时间序列为t=1,2, …,T),则回到第2)步,否则 结束。
  3 隐马尔可夫模型在语音识别研讨中的应用
  根据前面对隐马尔可夫模型原理的介绍,已知它是一个双重的随机过程,在语音识别中,这两个随机过程共同描述语音信号的统计特性。一个是用具有有限状态数的马尔可夫链来模拟语音信号变化的隐含的随机过程,另一个是与马尔可夫链的每一状态相关联的观察矢量的随机过程。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐马尔可夫链的转移几率描述。基于隐马尔可夫模型的语音识别算法通过对大量语音数据进行数据统计,建立识别统计模型,然后从待识别语音中提取特征值,与这些模型进行相似性量度对照,将相似度最高的模式所属的类别作为识别结果输出。一般来说,用隐马尔可夫模型构成语音识别系统,要解决3个基本问题。
  3.1 观察输出几率P(О|λ)的计算
  对于给定的观察序列О(o1,o2,o3…,ot)和模型λ={ξ,A,B},模型λ产生О的几率可选取前向几率、后向几率,能够使其计算量降低到N2T次运算。
  定义l:前向几率用T时刻从前出现的观察序列来推算到当前时刻t时出现某个观察值的几率,即用出现o1,o2,o3…,ot-1的几率来推算出现o1,o2,o3…,ot-1,ot的几率,用αt(i)表示。
  前向几率计算算法:
  1) 初始化: α1(i)=πibi(o1),1≤i≤N
  2) 递归:■
  3) 结束:■
  定义2:后向几率用ot+2,ot+3,…,oN去推算ot+1,ot+2,…,oN的几率,用βt(i)表示。
  后向几率算法如下:
  1) 初始化:βT(i)=1,1≤i≤N
  2) 递归:■
  3) 结束:■
  在定义了前向几率、后向几率和它们的算法后,观察输出几率P(О|λ)便很容易得到:■
  3.2 最佳状态序列的寻找
  对于HMM系统,外界观察到的某个序列О在系统内部对应的状态序列Q不是唯一的,然而不同的Q产生О的可能性不一样。最佳状态序列寻找的任务便是根据系统输出О寻找最有可能的状态序列Q,使得该状态序列产生О的可能性达到最大。其常用的算法是Viterbi算法。Viterbi算法是动态规划算法的一种变形,它可用如下递推算法求得:
  1) 初始化:δ1(i)= πibi(o1),1≤i≤N
   φ1(i)=0,1≤i≤N
  2) 递归:■
  3) 结束:■
  4) 状态序列求取:q*T=φi+1(q*i+1),t=T-1,T-2,…,1由此便可求得P(О|λ)的最佳状态序列:q*1,q*2,…,q*t。
  3.3 模型参数的估计
  模型参数的估计是HMM模型的训练问题,即如何根据系统所给的若干输出来确定模型λ={ξ,A,B},使P(О|λ)最大。研讨者一般选取Baum-Welch重估算法来进行HMM模型的训练。
  Baum-Welch算法可描述如下:
  令 ξt(i,j)=P(qt=Si,qt+1=Sj/О,λ),
   γt(i)=P(qt= Si/О,λ)
  则 ■
  由此得出了Baum-Welch算法中著名的重估公式:
  ■
  λ={π,A,B}即是重估后的模型参数,且P(О|λ)≥P(О|λ)。
  复杂的语音识别问题便是这样通过隐含马尔可夫模型大略地被表述、解决,让我们不得不感叹数学模型之妙,隐马尔可夫模型识别系统之所以优于其它系统,在于隐马尔可夫模型识别系统中保留了更多训练数据的统计信息,并解决了训练和分类上的困难,能够说隐马尔可夫模型在语音识别上是个极大的成功。
  3.4 语音识别中常用的几种HMM拓扑结构
  语音识别中常用的几种HMM的拓扑结构 如图1所示。其中每个圆表示一个状态,从圆到圆的有向弧表示从一个状态到另一个状态的过渡,称之为转移弧。
  ■
  a)无跨越由左向右模型 b)有跨越由左向右模型 c)全连结模型
  图1语音识别中几种常用的HMM结构
  4 结语
  隐马尔可夫模型在语音识别中的应用,使得语音识别有了长足的发展。目前基于HMM模型开发了许多特定人大词汇量连续的语音识别系统,但这些系统在有噪声的环境下事务时,本能明显降落,所以有必要进一步深入研讨,通过改善HMM模型增强语音识别系统Robust性。
  参考文献:
  [1] 谢锦辉.隐Markov模型(HMM)及其在语音处理中的应用[M].武汉:华中理工大学出版社,1995.
  [2] 胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000.
  [3] 段红梅,汪军,马良河,等.隐马尔可夫模型在语音识别中的应用[J].工科数学,2002(6):16-20.
  [4] 蔡莲红,黄德智,蔡锐.现代语音技能基础与应用[M].北京:清华大学出版社,2003.
  [5] 刘加.汉语大词汇量连续语音识别系统研讨进展[J].电子学报,2000.28(1):85-91.

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1121/44893/
 与本篇相关的热门内容: