未来智讯 > 人脸语音识别论文 > 朝鲜语紧急呼叫号码的语音识别系统研讨

朝鲜语紧急呼叫号码的语音识别系统研讨

发布时间:2018-11-27 01:06:05 文章来源:未来智讯    
    朝鲜语紧急呼叫号码的语音识别系统研讨作者: 王晓丹 金国哲   摘要:朝鲜语是我国目前适用范围较为广泛、使用人口较多的一种少数民族语言。朝鲜语紧急呼叫号码的语音识别软件,选取语音下令来呼叫号码,可以正确识别拨叫号码,在特定局面能够起到至关重要的作用。将语音抑制指令范围设定为报警求助、火警等词汇的识别中,实现了朝鲜语紧急呼叫号码语音识别系统的软件算法局部。通过对信号处理的每个步骤和朝鲜语数字连读问题进行深入分析及研讨,选择DTW(动态时间弯曲)算法作为该软件的核心算法。Matlab实验结果证明,选取的语音识别过程及算法能够正确地对录制的朝鲜语紧急呼叫号码进行识别。
  关键词:语音识别;孤立词;动态时间规整;朝鲜语
  中图分类号:TP319文献标识码:A文章编号文章编号:16727800(2013)0010010304
  作者简介:王晓丹(1981-),女,硕士,延边大学工学院讲师,研讨方向为语音识别、模式识别;金国哲(1983-),男,硕士,延边大学工学院讲师,研讨方向为游戏软件。
  0引言
  语音识别是让机器自动识别和理解语音信号,并把语音信号转化为相应的文本或下令的技能[1]。语音识别技能的解决将不但使计算机成为普通百姓得心应手的工具,而且对于许多机器的操作、生产过程的抑制,还有通讯、口语机器翻译等领域来说,语音识别都大有用武之地[2]。目前,信息家当发展迅速,方便、快捷、高效的电子产品越来越受到用户的青睐。语音识别作为人机交互的一项关键技能,具备了这样的特点,特别在一些特定的环境或是对于一些特定的人,语音识别能够带来很大的方便。语音识别系统实际上属于一种模式识别系统,它包括特征提取、模式匹配、参考模式库等基本单元,其原理如图1所示。
  输入的模拟语音信号最初进行预处理,包括预加重、分帧处理、数模转换、自动增益抑制等过程。为了从每一个词条中提取出随时间变化的语音特征序列,作为一个模型保存为参考模板,就要对预处理后的语音信号进行特征参数提取。待识别的语音信号同样经过特征参数提取后生成测试模板。对语音的识别过程即是将测试模板与参考模板进行匹配的过程,识别结果即是相似率最高的一个参考模板。对于输入信号计算测定,再根据若干规则和专家知识,来判决选出最后结果并由识别系统输出。语音识别系统设计要考虑服务对象、词表大小、事务环境、发音方式、任务性质等许多因素,不同的应用需要选取不同的方法实现,才能达到理想的效果[3]。本文所选取的朝鲜语紧急呼叫号码的语音识别系统选取后文所述的几个步骤和方法。
  1预处理
  本设计中对语音信号的预处理过程包括预加重、分帧处理及窗化处理。
  1.1语音信号的预加重
  选取预加重方法处理语音信号能补偿语音信号的固有衰落,而且能有效地消除唇辐射的影响[4]。该方法的传递函数为:H(z)=1-0.94z-1(1)
  设S(n)为输入的语音信号,经过预加重后得到的信号为:
  中找出语音的起初和终止点。确定语音信号的起止点能更好地对语音信号进行识别,从而提高系统识别率和获取到更好的语音特征参数。端点检测的常用方法有短时过零率、短时平均能量、基于熵的特征、短时频域处理等几种[6]。本文中端点检测局部选择短时平均能量和短时过零率相联合的方法。清音的过零率要高于浊音和静音局部,因此短时过零率可用于确定清音。而浊音和清音的时域能量要高于静音局部,所以短时时域平均能量可用于确定浊音。在进行语音检测时,最初找出哪一帧语音的能量超过能量门限,然后往前根据过零率确定语音的起点,同样方法可确定语音的终点。
  2特征提取如何选择语音特征直接关系到最后的识别效果。每段语音经过特征提取后具有了各自的特征值,特征间的距离量度反映出语音间的相似度。因此特征选择的标准应使得异音字特征间的距离尽量大,同音字间的距离尽量小。同时,在保持高识别率的情况下,还应尽量削减特征维数,以减小特征参数的计算量。人耳对200Hz到5kHz之间的语音信号最为敏感,高音不容易掩蔽低音,反之则较容易,高频处的声音掩蔽的临界带宽较低频端小。因此本文的朝鲜语孤立词语音识别系统最初选取在Mel频率轴上均匀分布的三角形滤波器,设
  图3语音识别仿真过程
  Step3:对分帧处理后的每帧信号求MFCC系数。Step4:通过DTW算法求出测试模板与参考模板的特征参数,选择差值最小的作为输出结果。语音抑制器选用“Cool Edit Pro V2.1”进行录音采样。Cool Edit Pro 是美国 Adobe Systems 公司开发的一款功能强大、效果出色的多轨录音和音频处理软件。该软件可提供多种特效为作品增色,如压缩、扩展、延迟、降噪、回声、失真等。并且可同时在几个文件中进行剪切、粘贴、合并、重叠声音的操作,还能够生成静音、噪音、低音、电话信号等。本文采样率为8 000Hz,声道为单声道,采样精度为16位。语音库需要对朝鲜语的“”、“”、“”、“”、“”这几个词进行录音采样。采集到的音频信号,经过Matlab提供的wav文件读写函数,以及声卡的录音和放音函数,能够实现某些语音信号处理事务。语音工具箱voicebox为实现语音识别提供了许多实用函数。本语音识别系统的文件包含15个模板语音文件,25个语音库文件和5个处理函数。
  以下分辨就5种韩国紧急电话号码进行了识别实验,并对结果进行了局部截图,实验结果包含模板波形图和测试结果。第一组是天气预报电话号码131;第二组是报警电话号码112;第三组是火警电话号码119;第四组是电话咨询号码114;第五组是海洋咨询电话号码。如图4和图5是分辨对韩国火警电话119的采样后的语音波形图和识别结果。
  通过对特定人朝鲜语呼叫号码的语音识别结果的分析,能够得出以下结论:①在语音库样本数量足够,相关被测人数适当的情况下,DTW算法可以有效地识别语音抑制指令;②识别效果与测试内容紧密相关,对于、这类数字,该算法完全能够正确识别出结果;③对
  于有连读发音的号码、、等,由于个人发音特点的差异,该算法会有时出现识别错误的现象,但错误率在6%以下。
  5结语
  本文实现了朝鲜语紧急呼叫号码语音识别系统的软件算法局部。其过程主要包括:语音预加重处理、短时能量和过零率两级端点检测算法进行端点检测、MFCC算法进行语音特征参数提取等。综合考虑环境、算法复杂度等因素,DTW算法可以既大略又有效地识别朝鲜语紧急呼叫号码。通过MATLAB仿真实验,验证了该算法识别朝鲜语词汇的正确率较高。出错的主要原因有:①静音局部过长和无静音时的差别;②朝鲜语发音准则决定个人发音特点的差异较大。这些问题都有待进一步研讨。
  参考文献:
  [1]MOKBEL, CHAFIC E,CHOLLET,et al.Automatic word recognition in cars[J].IEEE Transactions on Speech and Audio Processing,2005:346356.
  [2]陈尚勤.近代语音识别[M].成都:电子科技大学出版社,1991.
  [3]高宏涛,张德贤.语音识别技能研讨及实现[J].光盘技能,2007,(3):2428.
  [4]KONDOZ AM.Digital Speech-Coding for low bit rate communication systems[J].IEEE Press,2005(2):840842.[5]姚天任.数字语音处理[M].武汉:华中科技大学出版社,1992.
  [6]张玲华.说话人识别中语音特征参数的研讨[J].南京邮电学院学报:自然科学版, 2005(6).
  责任编辑(责任编辑:孙娟)
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1127/47718/
 与本篇相关的热门内容: