未来智讯 > 人脸语音识别论文 > 语音截止频率在语音识别中的应用

语音截止频率在语音识别中的应用

发布时间:2018-11-21 01:06:05 文章来源:未来智讯    
    语音截止频率在语音识别中的应用作者: 吕勇   摘 要:语音识别系统往往会受到说话人的改变、信道失真、环境噪声等各种因素的干扰,从而导致预先训练的声学模型与实际环境语音的特征参数之间存在较大的差异,这会严重影响语音识别系统在实际环境下的识别本能。由于噪声主要影响语音的高频非周期局部,传统的最大似然线性回归算法在噪声自适应中难以取得令人如意的效果。文章提出了一种基于语音截止频率的最大似然线性回归算法,以当前测试环境的语音截止频率为频率上限,提取测试语音的特征参数;然后,将声学模型每个高斯单元的均值和方差从倒谱域变换到对数谱域,根据语音截止频率,忽略其高频分量,再变换回倒谱域;最终,根据测试环境下的小量自适应数据,利用最大似然线性回归算法对声学模型的参数进行调整,使其与当前环境相匹配。
  关键词:语音识别;语音截止频率;最大似然线性回归;模型自适应
  1 引言
  在实际应用局面,语音识别系统往往会受到说话人的改变、信道失真、环境噪声等各种语音变异性的干扰,从而导致预先训练的声学模型与实际环境下提取的声学特征之间存在较大的差异。因而需要对声学模型或声学特征进行补偿,减小环境失配的影响,提高语音识别系统在实际环境下的识别本能。
  模型自适应是一种减小环境失配的有效方法,它通过测试环境下的自适应数据调整预先训练的声学模型的参数,使之与当前环境相匹配。一般来说,声学模型包含较多的参数,如果每个参数都独立更新,则需要大量的自适应数据,这在实际应用中很难做到。因此,常常假如声学模型的若干个高斯单元共享同一个环境变换关系,将这些高斯单元的自适应数据合并,估计同一组变换参数。最大似然线性变换[1](MLLR: Maximum Likelihood Linear Regression)是一种常用的模型自适应算法,它假如测试环境声学模型与训练环境声学模型之间适合仿射变换关系,只需要通过仿射变换将训练环境声学模型每个高斯单元的均值和方差变换到测试环境,即可得到测试环境声学模型。
  在谐波噪声模型中,语音能够分解为一系列正弦谐波与噪声的叠加。在大局部语音帧中,谐波仅仅分布在频谱的低频段,因此能够将语音的频谱划分为两个不同的局部:低频谐波局部和高频非周期局部,这两个局部的分界频率就称为语音截止频率。确定语音截止频率的主要方法有分析综合法、谱域方法和时域方法[2]。在大多数应用局面下,背景噪声是宽带的,它会同时影响语音的低频段和高频段。但在低频谐波局部,语音的能量一般远大于该频段的噪声能量,噪声的影响较小;而在高频非周期局部,语音的能量很小,更易受噪声影响,常常会被噪声覆盖。因而能够认为含噪语音的低频段是有用的语音谐波,而高频段主要是噪声信息。这样,在语音识别中,根据环境噪声的类型和信噪比,估计当前环境下的语音截止频率,仅用语音的低频谐波局部构建声学特征,能够得到更好的识别效果。
  文章提出了一种基于语音截止频率的最大似然线性回归算法。在该算法中,最初从测试环境下的小量自适应数据中提取当前测试环境的语音截止频率,并用其作为频率上限,提取语音的特征参数;然后,将声学模型每个高斯单元的均值向量和协方差矩阵从倒谱域变换到对数谱域,根据语音截止频率,忽略高频分量,再变换回倒谱域;最终,根据测试环境下的小量自适应数据,利用MLLR算法对声学模型的参数进行调整,使其与当前环境相匹配。
  2 基于语音截止频率的最大似然线性回归算法
  2.1 训练过程
  在训练阶段,最初用Mel滤波器组将语音的有效频谱划分为N个Mel频带,设第i个Mel频带的上限频率为fi,这N个上限频率即为语音截止频率的取值范围。然后,为每个语音单元的发音样本提取倒谱特征参数,训练生成该语音单元的声学模型。在语音识别中,声学模型一般为隐马尔可夫模型(HMM: Hidden Markov Model),其每个状态的几率密度函数用一个高斯混和模型(GMM: Gaussian Mixture Model)来描述。这些预先训练得到的声学模型可能与实际应用环境并不匹配,因此在测试阶段需要对其参数进行调整后,才能用于语音识别。
  2.2 测试过程
  2.2.1 确定语音截止频率
  用谱域方法从测试环境下的小量自适应数据中提取测试语音频谱的截止频率,并将其映射到Mel频带的上限频率fi上,用与其最接近的Mel频带上限频率作为当前测试环境的语音截止频率。
  2.2.2 特征提取
  用当前测试环境的语音截止频率作为频率上限,提取测试语音的倒谱特征参数,即只保留截止频率以下的Mel频带,忽略其以上的Mel频带。特征提取的步骤包括:声学预处理、快速傅里叶变换、Mel滤波、取对数、离散余弦变换和时域差分。
  2.2.3 高斯降维
  因为在特征提取中根据语音截止频率对语音的特征参数进行了降维,为了与特征参数一致,声学模型每个高斯单元的均值向量与协方差矩阵也必须降维。将每个语音单元声学模型的均值向量和协方差矩阵从倒谱域变换到对数谱域,根据语音截止频率,忽略均值和方差的高频Mel分量,再变换回倒谱域,即可得到与测试环境特征参数的频率范围一致的声学模型。
  2.2.4 模型变换
  由于背景噪声、信道失真、说话人的改变等各种因素的影响,高斯降维后的声学模型可能与实际测试环境并不匹配,甚至相差很远。为了减小环境失配的影响,需要对声学模型的参数进一步调整。最初通过聚类算法将声学模型的高斯单元划分为若干类,假如每一类的全部高斯单元适合同一个仿射变换关系。然后,将每一类全部高斯单元的自适应数据合并,根据最大似然规则估计该类仿射变换的参数。得到变换参数后,对声学模型各类高斯单元的均值向量和协方差矩阵进行变换,即可得到测试环境声学模型。测试环境声学模型的状态初始几率分布、状态转移几率矩阵和高斯混和系数与训练环境声学模型一致。
  2.2.5 语音识别
  得到测试环境声学模型后,即可对当前测试环境下提取的特征参数进行声学解码,得到识别结果。
  3 结束语
  语音识别系统在实际应用中不可避免地要受到背景噪声的干扰,而噪声主要影响语音的高频非周期局部,因此在噪声环境下仅用语音频谱的低频谐波局部进行语音识别能够取得更好的识别效果。文章将语音截止频率用于声学模型的参数自适应,提出了一种基于语音截止频率的最大似然线性回归算法,从测试环境下的小量自适应数据中提取当前测试环境的语音截止频率,提取测试语音的特征参数,并将声学模型每个高斯单元的均值和方差从倒谱域变换到对数谱域,根据语音截止频率忽略其高频分量,再变换回倒谱域,然后利用MLLR算法对声学模型的参数进一步调整,得到测试环境声学模型。基于语音截止频率的最大似然线性回归算法优于传统的MLLR算法,在噪声补偿中具有更好的鲁棒性。
  参考文献
  [1]N・S・Kim,J・S・Sung,D・H・Hong. Factored MLLR Adaptation [J]. IEEE Signal Processing Letters, 2011(2).
  [2]K・Hermus,H・V・Hamme,S・Irhimeh・Estimation of the Voicing Cut-Off Frequency Contour Based on a Cumulative Harmonicity Score [J].IEEE Signal Processing Letters,2007(11).
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1121/44894/
 与本篇相关的热门内容: