未来智讯 > 人脸语音识别论文 > 语音识别技能综述

语音识别技能综述

发布时间:2018-11-22 01:06:05 文章来源:未来智讯    
    语音识别技能综述作者: 邢铭生 朱 浩 王宏斌   摘 要:语音识别是以语音为研讨对象,让机器通过识别和理解过程把语音信号转变为相应的文本或下令,使人机能自然地进行语音交流的技能。语音识别涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言,其最后指标是实现人与机器进行自然语言通讯。随着时代的不时进步,语音识别技能已经发展成一门综合人类智能各项研讨的独立学科,如今正逐渐成为信息技能中人机接口的关键技能。
  关键词:语音识别 应用领域 热点 难点
  中图分类号:TN912 文献标识码:A 文章编号:1007-3973 (2010) 03-062-02
  
  1应用领域
  现在,一些语音识别的应用已经应用到实际生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系统等。语音识别的应用领域相当广泛,几近涉及到日常生活的方方面面。如语音拨号系统、、家庭服务、订票系统、声控智能玩具、医疗服务、银行服务、听写机、计算机抑制、工业抑制、语音通讯系统等。预计在不远的将来,语音识别技能将在工业、家电、通讯、、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技能是2000年至2010年间信息技能领域十大重要的科技发展技能之一。
  2发展历史
  语音识别的研讨事务起初于50年代,Bell实验室实现了第一个可识别十个英文数字的语音识别系统―Audry系统。但真正取得实质性进展,并将其作为一个重要的课题开展研讨则是在60年代末70年代初。60年代,提出了动态规划(DP)和线性预测分析技能(LP),其中后者较好地解决了语音信号产生模型的问题,极大地促进了语音识别的发展。70年代,动态时间归正技能(DTW)解决了语音特征不等长匹配问题,对特定人孤立词语音识别十分有效,在语音识别领域取得了突破。在此期间还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
  80年代语音识别研讨进一步深入,HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高本能的非特定人、大词汇量、连续语音识别系统。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。使得借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。
  90年代,人们起初进一步研讨语音识别与自然语言处理的联合,逐渐发展到基于自然口语识别和理解的人机对话系统。人工神经元网络(ANN)也起初应用于语音识别,它和HMM模型建立的语音识别系统本能非常,在很多系统中还被联合在一同使用以提高识别率及系统的鲁棒性。小波分析也起初用于特征提取,但目前本能不理想,其研讨还在进一步深入中。
  如今语音识别系统已经起初从实验室走向实用,出现了对照成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研讨投以巨资。
  3研讨的热点与难点
  目前语音识别领域的研讨热点包括:稳健语音识别(识别的鲁棒性)、语音输入设备研讨 、声学HMM模型的细化、说话人自适应技能、大词汇量关键词识别、高效的识别(搜索)算法研讨 、可信度评测算法研讨、ANN的应用、语言模型及深层次的自然语言理解。
  目前研讨的难点主要表如今:(1)语音识别系统的适应性差。主要体如今对环境依赖性强。(2)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。(3)如何把语言学、生理学、心理学方面知识量化、建模并有效用于语音识别,目前也是一个难点。(4)由于我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的抑制机理等方面的认识还很不清楚,这必将妨碍语音识别的进一步发展。
  4语音识别系统
  一个典型的语音识别系统如图所示:
  
  输入的语言信号最初要进行反混叠滤波、采样、A/D转换等过程进行数字化,之后要进行预处理,包括预加重、加窗和分帧、端点检测等。我们称之为对语音信号进行预处理。
  语音信号的特征参数主要有:短时能量En,反映语音振幅或能量随着时间缓慢变化的规律;短时平均过零率Zn,对于离散信号来讲,大略的说便是样本改变符号的次数,能够粗略分别清音和浊音;短时自相关函数;经过FFT或LPC运算得到的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱参数;根据人耳听觉特性变换的美尔(MEL);线性预测系数等。常常识别参数可选择上面的某一种或几种的组合。
  语音识别是语音识别系统最核心的局部。包括语音的声学模型(训练学习)与模式匹配(识别算法)以及相应的语言模型与语言处理2大局部。声学模型用于参数匹配,常常在模型训练阶段按照一定的规则,由用语音特征参数表征的大量已知模式中通过学习算法来获取代表该模式性子特征的模型参数而产生。在识别(模式匹配)时将输入的语音特征同声学模型(模式)根据一定规则进行匹配与对照,使未知模式与模型库中的某一个模型获得最佳匹配以得到最佳的识别结果。语言模型一般指在匹配搜索时用于字词和路径约束的语言准则,它包括由识别语音下令构成的语法网络或由统计方法构成的语言模型,语言处理则能够进行语法、语义分析。
  声学模型是语音识别系统中最关键的一局部。目前最常用也最有效的几种声学识别模型包括动态时间归整模型(DTW)、隐马尔可夫模型(HMM)和人工神经网络模型(ANN)等。
  DTW是较早的一种模式匹配和模型训练技能,它把整个单词作为识别单元,在训练阶段将词汇表中每个词的特征矢量序列作为模板存入模板库,在识别阶段将待识别语音的特征矢量序列依次与库中的每个模板进行相似度对照,将相似度最高者作为识别结果输出。DTW应用动态规划方法成功解决了语音信号特征参数序列对照时时长不等的难题,在小词汇量、孤立词语音识别中获得了良好本能。但因其不符合连续语音大词汇量语音识别系统,目前已逐步被HMM和ANN模型替代。
  HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。HMM很好的模拟了人得语言过程,目前应用十分广泛。HMM模型的模型参数包括HMM拓扑结构(状态数目N、状态之间的转移方向等)、每个状态能够观察到的符号数M(符号聚集O)、状态转移几率A及描述观察符号统计特性的一组随机函数,包括观察符号的几率分布B和初始状态几率分布 ,因此一个HMM模型能够由{N,M,A,B, }来确定,对词汇表中的每一个词都要建立相应的HMM模型。
  
  模型参数得到后能够用Viterbi算法来确定与观察序列对应的最佳的状态序列。建好模型后,在识别阶段便是要计算每个模型产生观察符号序列的输出几率,输出几率最大的模型所表示的词便是我们的识别结果。这个过程计算量很大,有人提出了前向-后向算法,大大削减了计算量,已经被广泛选取,关于它们的各种改进方法也被大量提出。
  ANN在语音识别中的应用是如今研讨的又一热点。ANN性子上是一个自适应非线性动力学系统,是由结点互连组成的计算网络,模拟了人类大脑神经元活动的基本原理,具有自学习能力、记忆、遐想、推理、概述能力和快速并行实现的特点,同时还具备自组织、自适应的功能。这些能力是HMM模型不具备的,可用于处理一些环境信息十分复杂,背景知识不清楚,推理准则不明确的问题,允许样品有较大的缺损、畸变,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。目前大局部应用神经网络的语音识别系统都选取了BP网并取得了较好的识别效果。
  将ANN与HMM联合分辨利用各自优点进行识别将是今后的一条研讨途径。二者联合的混合语音识别方法的研讨起初于上世纪90年代,目前已有一些方法将ANN辅助HMM进行计算和学习几率参数。
  语言模型主要分为准则模型和统计模型两种。统计语言模型是用几率统计的方法来揭示语言单位内在的统计规律,其中N-Gram大略有效,被广泛使用。N-Gram模型基于这样一种假如:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的几率便是各个词出现几率的乘积。这些几率能够通过直接从语料库中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
  5归纳
  只管语音识别技能已经取得了长足的进步,而语音识别系统也层出不穷,不时的改变人类现有的生活方式,但其对照成功的应用也不过在某些特定的领域,谈不上大规模广泛的应用。惟有建立从声学、语音学到语言学的知识为基础、以信息论、模式识别数理统计和人工智能为主要实现手段的语音处理机制,把整个语音识别过程从系统工程的高度进行分析构建,才有可能获得能与人类相比的高本能的、完整的计算机语音识别系统。
  
  参考文献:
  [1]易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000.
  [2]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.
  [3]赵力.语音信号处理[M].机械工业出版社,2003.
  [4]张卫清.语音识别算法的研讨[D].南京理工大学(硕士生论 文),2004.
  [5]何湘智.语音识别研讨与发展[J].计算机与现代化,2002(3).

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1122/45318/
 与本篇相关的热门内容: