未来智讯 > 人脸语音识别论文 > 语音识别技能概括
    语音识别技能概括作者:未知   摘要:本文简要介绍了语音识别技能理论基础及分类方式,所选取的关键技能以及所面临的困难与挑战,最终讨论了语音识别技能的发展前景和应用。
    关键词:语音识别;特征提取;模式匹配;模型训练
  中图分类号:TP312 文献标识码:A文章编号:1007-9599 (2010) 05-0000-01
  
  Summarization on Speech-Identification Technology
  Liu Yu1,2,Ma Yanli1,Dong Beibei1
  (1.Hebei North University,Information Science and Engineering College,Zhangjiakou075000,China;2.Tianjin University,Electronics and Information Engineering College,Tianjin300072,China)
  Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
  Keywords:Speech identification;Character Pick-up;Mode matching;Model training
  
  一、语音识别技能的理论基础
  语音识别技能:是让机器通过识别和理解过程把语音信号转变为相应的文本或下令的高级技能。语音识别以语音为研讨对象,它是语音信号处理的一个重要研讨方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最后指标是实现人与机器进行自然语言通讯。
  不同的语音识别系统,虽然具体实现细节有所不同,但所选取的基本技能相似,一个典型语音识别系统主要包括特征提取技能、模式匹配规则及模型训练技能三个方面。此外,还涉及到语音识别单元的采用。
  (一) 语音识别单元的采用
  选择识别单元是语音识别研讨的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研讨任务决定。
  单词(句)单元广泛应用于中小词汇语音识别系统,但不符合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
  音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
  音素单元从前多见于英语语音识别的研讨中,但目前中、大词汇量汉语语音识别系统也在越来越多地选取。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研讨。
  (二) 特征参数提取技能
  语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取便是完成这项事务,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量削减说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。
  线性预测(LP)分析技能是目前应用广泛的特征参数提取技能,许多成功的应用系统都选取基于LP技能提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
  Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研讨成果。实验表明,选取这种技能,语音识别系统的本能有一定提高。
  也有研讨者尝试把小波分析技能应用于特征提取,但目前本能难以与上述技能相比,有待进一步研讨。
  (三)模式匹配及模型训练技能
  模型训练是指按照一定的规则,从大量已知模式中获取表征该模式性子特征的模型参数,而模式匹配则是根据一定规则,使未知模式与模型库中的某一个模型获得最佳匹配。
  语音识别所应用的模式匹配和模型训练技能主要有动态时间归正技能(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。
  DTW是较早的一种模式匹配和模型训练技能,它应用动态规划方法成功解决了语音信号特征参数序列对照时时长不等的难题,在孤立词语音识别中获得了良好本能。但因其不符合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。
  HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移几率描述。模型参数包括HMM拓扑结构、状态转移几率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(选取离散几率密度函数,简称DHMM)和连续隐马尔可夫模型(选取连续几率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研讨出有效的算法,并不时被完善,以增强HMM模型的鲁棒性。
  人工神经元网络在语音识别中的应用是如今研讨的又一热点。ANN性子上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、遐想、对比、推理和概述能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正本能。因此,如今已有人研讨如何把二者的优点有机联合起来,从而提高整个模型的鲁棒性。
  二、语音识别的困难与对策
  目前,语音识别方面的困难主要表如今:
  (一)语音识别系统的适应性差,主要体如今对环境依赖性强,即在某种环境下采集到的语音训练系统只可在这种环境下应用,否则系统本能将急剧降落;另外一个问题是对用户的错误输入不能准确响应,使用不方便。
  (二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这便是所谓Lombard效应,必须寻找新的信号分析处理方法。
  (三)语言学、生理学、心理学方面的研讨成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研讨。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是相当重要的。
  (四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的抑制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。
  (五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技能等等技能细节要解决。
  三、语音识别技能的前景和应用
  语音识别技能发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技能已经可以满足常常应用的要求。由于大规模集成电路技能的发展,这些复杂的语音识别系统也已经完全能够制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们能够通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。
  语音识别是一门交叉学科,语音识别正逐渐成为信息技能中人机接口的关键技能,语音识别技能与语音合成技能联合使人们可以甩掉键盘,通过语音下令进行操作。语音技能的应用已经成为一个具有竞争性的新兴高技能家当。
  参考文献:
  [1]科大讯飞语音识别技能专栏. 语音识别家当的新发展.企业专栏.通信世界,2007.2:(总l12期)
  [2]任天平,门茂深.语音识别技能应用的进展.科技广场.河南科技,2005.2:19-20
  [3]俞铁城.科大讯飞语音识别技能专栏.语音识别的发展现状.企业专栏.通信世界,2006.2 (总122期)
  [4]陈尚勤等.近代语音识别.西安:电子科技大学出版社,1991
  [5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防工业出版社,2005
  [6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1122/45331/
 与本篇相关的热门内容: