未来智讯 > 人脸语音识别论文 > 有关语音识别技能的研讨

有关语音识别技能的研讨

发布时间:2018-11-29 01:06:05 文章来源:未来智讯    
    有关语音识别技能的研讨作者:未知   摘 要:语音识别是将音频数据转换成文本或者其他形式的计算机能够处理的信息。这里大略介绍语音识别技能的发展历史和现状,阐述了典型语音识别系统的基本原理,对语音识别的基本方法和识别过程进行深入分析,探讨语音识别技能发展过程中的难点问题,给出了相应对策。
  关键词:语音识别; 音频数据;典型的语音识别系统; 特征参数
  中图分类号:TP391.42文献标识码:A
  文章编号:1004-373X(2010)08-0138-03
  
  Research on Speech Recognition Technology
  LI Hong-mei, WU Xiao-qin
  (Hainan University, Haikou 570228, China)
  Abstract:The speech recognition is a technology which transfers the audio datainto the text or other information form convenient to be disposed bycomputer.The history and situation of development of the speech recognition technology is introduced. The principle of a typical speech recognition system is elaborated.The difficulties existing during the development of the speech recognition technologyare discussed and the solutions are given. The method and process of the speech recognition are analysed.
  Keywords:speech recognition; audio data; typical speech recognition system; characteristic parameter
  
  0 引 言
  语言是人类获取信息的主要来源之一,是人类与外界交流信息最方便、最有效、最自然的工具,随着计算机技能的快速发展,语音技能的研讨也越来越受到重视。人类对语音的研讨主要包括语音编码、语音合成、语音识别和说话人辨识等几个方面。
  语音识别以语音为研讨对象,它是语音信号处理的一个重要研讨方向,是模式识别的一个分支,设计到语言学、生理学、心理学、计算机科学以及信号处理等学科。语音识别的目的是为了使机器可以正确地听出人的语音及其内容,以便抑制其他设备来满足人类的各种需要,它是发展人机有声通讯和新一代智能计算机的重要组成局部。
  1 概 述
  语音识别[1-2]研讨事务能够追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个能够识别英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研讨则是在20世纪60年代末70年代初。这是因为计算机的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语言信号线性预测编码(LPC)技能和动态时间规整(DTW)技能的提出,有效地解决了语言信号的特征和不等长匹配问题。
  实验室语音识别研讨的巨大突破产生于20世纪80代末。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特征都集成在一个系统中,对照典型的是卡耐基美隆大学的Sphinx系统。
  20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研讨投以巨资。我国的语音识别研讨的起步比先进国家晚一点,然而进步很快,成果突出。
  2 语音识别系统原理
  语音识别系统大体上能够划分为:孤立语音和连续语音识别系统、大词汇量和小词汇量语音识别系统、特定人和非特定人语音识别系统。
  不同的语音识别系统,只管设计和实现细节不同,但所选取的基本技能是相似的。一个典型的语音识别系统基本原理框图如图1所示。
  图1 典型的语音识别系统基本原理框图
  从图1可看出,语音识别系统包括预处理、特征提取、模型的训练和匹配、后处理等几个局部。下面分辨介绍这几个局部。
  2.1 预处理
  预处理对输入的原始语音信号进行处理,滤除其中不必要的信息及噪声等,并进行语音信号的端点检测,即判定语音有效范围的起初和结束位置,并进行语音分帧和预加重处理等事务[3]。
  2.2 特征参数提取技能
   特征提取负责计算语音声学参数,提取出反映信号特征的关键特征参数。特征参数的提取是关系到语音识别系统本能好坏的一个关键技能,合理地选择特征参数不但对系统的识别率有很大的提高,同时对系统的实时本能也至关重要[4]。
   特征提取的目的是对原始语音信号进行处理,计算语音信号对应的特征参数,主要包括以下几个步骤:
  (1) 采样与量化。
  最初将模拟语音信号��s(t)以采样周期T采样,将其离散化为S(n)。采样周期的采用应根据模拟语音信号的带宽(根据奈奎斯特采样定理确定),以避免信号的频域混叠失真。对离散后的语音信号进行量化处理过程中会带来一定的量化噪声和失真。
  (2) 预加重处理。
  对输入的原始语音信号进行预加重,其目的是为了对语音的高频局部进行加重,增加语音的高频分别率。一般通过一个传递函数为H(z)=1-αz��-1的滤波器对其加以滤波。其中:α为预加重系数且0.9
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1129/48678/
 与本篇相关的热门内容: