未来智讯 > 人脸语音识别论文 > 基于词组的语音识别模型研究
    关键词:矢量量化模块;语音识别;隐马尔柯夫模型
    中图分类号:TP391.42 文献标识码:A文章编号:1007-9599 (2011) 14-0000-01
    Phrase-Based Speech Recognition Model Study
    Chen Fengliang,Peng Shengze
    (Mianyang Teachers College,Mianyang621000,China)
    Abstract:This paper describes three kinds of phrases in a simple speech recognition model,the paper introduces the discrete hidden Markov model(DHMM)to build speech recognition systems,and on this basis,the introduction of vector quantization(VQ)module to ensure that the recognition rate and recognition speed,with good usability.
    Keywords:Vector quantization module;Speech recognition;Hidden Markov model
    一、语音识别模型概述
    (一)人工神经网络模型。人工神经网络模型的本质是利用大量简单的处理单元进行相互的交叉连接,从而构建出一种较为复杂的信息处理系统。该模型特点是模拟了人类神经元的活动方式,因而具有自学以及推理能力,同时还具有高并行处理能力和容错能力。但该模型数据计算量庞大,模板训练和语音识别算法的实现过程较为复杂,且识别贡献率相比其他模型而言并不具有优势。(二)隐马尔柯夫模型。隐马尔柯夫模型是一种描述语音信号动态变化并具有动态时间规整能力的统计模型,是一种双重随机过程,对准平稳事变信号能够进行有利的分析。该模型具有高准确率的描述语音信号特征能力。其缺点是数据计算量相对较大。(三)动态时间规整。动态时间规整是一种动态规划思想,它利用局部的最佳化原则来搜寻出一条自动的最佳路径,从而使得两个特征参数矢量间的失真度最小。动态时间规整采用时间校准特征参数序列,可有效解决语音信号在时间上的对不准问题。其缺点是仅对特定人的语音识别具有较理想的识别效果,并且需要对关键词组所涉及的可能所用样本进行训练,否则识别效果将降低。
    以上三种模型都存在各自局限性,但综合比较而言,隐马尔柯夫模型具有较高的综合性能。本文提出采用离散隐马尔柯夫模型(Discrete Hidden Markow Model,DHMM)来构建语音识别系统,并在此基础上引入矢量量化(Vector Quantization,VQ)模块来保证识别率和识别速度。
    二、基于DHMM和VQ的语音识别系统的总体结构
    针对连续隐马尔柯夫模型(CHMM)计算量大并且难以用硬件电路来描述实现的缺点,本文提出的基于DHMM和VQ的语音识别系统在端点检测、特征提出等几个方面进行改进,以减少计算量并提高识别率。基于DHMM和VQ的语音识别系统的总体结构如图1所示:
    
    
    训练
    
    模板参考
    
    识别判定
    
    
    图1:基于DHMM和VQ的语音识别系统的总体结构
    (一)状态机法端点检测。传统的双门限法检测不易于采用硬件电路实现,并且难以对对语音信号进行实时的端点检测。本文所提出的状态机法端点检测方法能够解决双门限法检测的缺陷,适合对语音信号进行实时的检测,并且能用硬件电路来实现。状态机法端点检测的本质就是将能量状态以及过零率状态变迁过程中每帧信号装变成状态值,然后根据这些状态值的逻辑关系来完成端点检测。该检测方法具有计算量小、存储空间小的特点。(二)MFCC特征提取。MFCC模拟了人耳听觉感知方面以及人耳对语音的响应特征,更加符合人类的真实听觉特性。同时,MFCC在噪声环境下能够表现出良好的识别性能以及鲁棒性,并不依赖于全极点模型假定。因此,在非特定人语音识别中能够有效减少不同说话人的口音、方言带来的干扰,能够提高识别性能。(三)离散隐马尔柯夫模型。传统的CHMM模型具有计算量大、存储量大的缺点,导致难以用硬件电路来描述。针对这一现象,本文所提出的离散隐马尔柯夫模型参数B为离散概率分布。同时,引入VQ矢量量化模块来提高识别率和识别速度。该模型具有计算压力小、存储空间小的优势,并且符合语音识别系统硬件化的发展趋势。(四)VQ矢量量化。为了提高语音识别系统的识别率和识别速度,弥补DHMM离散模型在这一方面的不足,在模型基础上加入VQ矢量量化模块。作为一种高效的编码技术,VQ矢量量化模块的基本思想是首先将标量数据组成一个矢量组,然后在此基础上进行整体的量化。通过VQ矢量量化能够通过较小的信息损失代价获得高效的数据压缩,达到提高识别率和识别速度的目的,提高模型的实用性。
    三、实例分析
    本文选择4个词组进行实验分析,4个词组分别为“北京”、“上海”、“天津”和“重庆”,对10位年龄在22到28岁之间的男性进行语音采样后建立语音资料库,每个人对每个词组的样本数均为6。
    每个词组的60个语音样本中选择30个作为DHMM模型参数的训练,同时余下的30个样本用于模型识别效果的验证。
    从相关实验数据可以看出,基于DHMM和VQ的识别模型识别率明显比基于CHMM的识别模型要高。基于CHMM的识别模型最高识别率为73.3%,最低识别率仅60%。而加入VQ矢量量化模块后的DHMM模型识别率大大提高,能够达到实际应用的水平。同时,加入VQ矢量量化模块后,整体识别速度也提高。
    四、结语
    离散隐马尔柯夫模型DHMM在引入VQ矢量量化模块后能提高识别系统的识别率和识别速度,具有良好的实用价值。
    参考文献:
    [1]赵力.语音信号处理[M].机械工业出版社,2009
    [2]刘玄和,宋庭新.语音识别与控制应用技术[M].科学出版社,2008
    [3]陈玉平,韩纪庆,郑铁然.基于动态排位信息的语音端点检测算法[J].计算机工程,2008,10
    [4]李星星.基于HMM的汉语语音关键词检测研究与实现[D].武汉理工大学,2009
    [5]袁正午,肖旺辉.改进的混合MFCC语音识别算法研究[J].计算机工程与应用,2009,33
    [基金项目]绵阳师范学院科研项目(项目编号:MA2009012)部分研究成果。
    

转载请注明来源。原文地址:https://www.7428.cn/page/2018/0703/20921/
 与本篇相关的热门内容: