未来智讯 > 人脸语音识别论文 > 普通话水平测试系统中的语音识别和语音评测技能探究

普通话水平测试系统中的语音识别和语音评测技能探究

发布时间:2018-11-26 01:06:05 文章来源:未来智讯    
    普通话水平测试系统中的语音识别和语音评测技能探究作者:未知   【摘要】普通话水平测试是践行“推广普通话”这一基本国策的重要手段。随着技能革新,传统的“人工测试”转变到由计算机进行辅助测试的方式。语言识别技能以及语言评测技能的应用,是不时推动普通话水平测试走向成熟的关键。
  【关键词】语音识别技能 语音评测技能
  【中图分类号】G65 【文献标识码】A 【文章编号】2095-3089(2017)18-0215-01
  经过20多年的发展,现今的普通话测试是通过计算机辅助测试的方式来完成的,主要在其中运用了语音识别技能以及语音合成技能,然而选取的测试系统是科大讯飞公司生产的测试系统。
  一、语音识别技能的基本概括
  1.预处理
  因为应试人员输入到测试系统中的是一些计算机没有办法识别的模拟信号,所以在计算机对信号进行处理之前,必须把模拟信号转化为数字信号。这便是预处理的作用,预处理包括预滤波、预加重、采样和量化等步骤。
  预滤波的主要作用是防止采样频率出现混叠干扰,同样能够对电源工频干扰进行控制。
  预加重是针对采样局部高频信号来进行的,主要便是为了提高高频局部语音信号的分别率,同时对发声过程中声带以及嘴唇的干扰进行消除,使得高频的共振峰更加突出。普通话水平测试系统中预加重的事务是通过一阶高通滤波器来完成的。
  采样和量化是通过A/D转换器来完成的,在每个周期之内,A/D转换器都会测量以及量化信号各一次。这样声音信号就会转变为数字音频信号。在模拟信号向数字信号转换之前,最初需要对模拟信号波形进行分割,其实这便是采样的性子。具体来说,是在采样周期之内模拟信号的波形上取一个幅度值,这样原本连续的模拟信号就会变为离散信号。采样周期的倒数为采样频率,在采样频率高于声音信号的最高频率的2倍时,数学信号所表示的声音才可以被正确的还原,这是实际采样过程中的一个难点。采样结束之后,声音音量的大小还会受到声波幅度电压值大小的影响,而对该数值的数字化表示,便是“量化”。量化最初要做的是对整个声波幅度进行划分,之后对区段内的值进行分类,然后用同一量化值进行赋值计算。对声波幅度的划分是按照2进制的方式来完成的。
  2.特征参数的提取
  语音识别系统中特征参数的提取是用梅尔倒谱系数来完成的(简称MFCC),该系数具有良好的抗噪音能力以及识别能力。
  MFCC的提取是按照以下步骤来完成的:最初求Mel标准刻度,Mel标准刻度可以描述人耳频率的非线性特征。是通过处理之后的语音频率来计算的,Mel标准刻度的单位为HZ。其次进行FFT操作,因为常常情况下很难根据信号本身的变化特征分析出信号时域上的变化特征。为了操作的正确性,我们常常用信号频域上的能量变化来代替信号时域上的变化,不同的能量变化特征可以代表语音信号本身的特征。因此如果我们将分帧之后的语音信号加上Hanmming窗,还应该对每帧信号进行FFT操作。这样就可以获得信号在频谱上的能量分布,语音信号的功率谱也是在这个基础上计算得来的。然后需要进行的是三角带通滤波器滤波,要求每个滤波器组输出信号对数能量的正确值。在这里需要说明,MFCC并不受输入信号的音高等因素的影响,所以说以MFCC为特征的语言识别系统,即当前普通话水平测试之中所选取的系统也不会受到输入语音音高等因素的影响。借助于三角带通滤波器,我们就可以对声音频谱进行平滑化处理,而且还可以消除谐波的作用,凸显原本声音信号的共振峰。测试系统所选取的三角形�V波器,每个顶点与相邻滤波器的起点以及终点都可以做到重合,这样相邻两个滤波器之间就会出现重叠区域。然后对滤波之后的信号进行计算,就可以求出滤波器组输出的对数能量和倒谱系数。
  二、语音评测技能的基本概括
  1.事务原理
  这项技能运作最初要做的是从发音资料库中对标准语音资料进行特征提取,分析其中的显著特征。之后要做的是对大量的非标准发音资料进行特征提取。然后对提取的这两局部发音材料进行分析,系统自动生成一套完整的评分准则。最终才可以对待测的语音资料进行分析,从而得出一个相对直观、正确的评分。当前语音评测技能是普通话水平测试系统中最常用的技能。
  2.语音评测技能在汉语评测中的应用
  语音评测技能已经可以实现对用户输入的语音进行全部接收,所以说它已经使得说话过程变的相当积极了,这也是将这项技能运用到普通话测试之中的重要原因之一。应用这项技能最关键的一个作用便是对说话者的语音进行反馈,要实现这一指标需要建立起完备的语音语料库,这需要对大量的标准语音以及非标准语音进行分析。虽然说这一技能的存在我们已经实现了对于语音的自动评测,然而目前所用的评分系统对于句子层的敏感度较低,而且评测的内容必须是已经被收录在系统之内的问题并没有被解决。
  对于汉语语音的识别是借助HTK平台来实现的,因为汉语的特殊性,为了提高识别的正确度我们建立起了孤立词语音识别系统,比较标准发音模板而进行的特征对照,评测遵循的是发音与模板相似性越高分越高的原则。而相似性对照的参数有能量、基频以及MFCC参数等等。
  参考文献:
  [1]周晓兰. 计算机辅助普通话水平测试中的语音识别技能探讨[J]. 乡村经济与科技,2016,(22):240-241.
  [2]周晓兰. 普通话水平测试系统中语音识别和语音评测技能研讨[J]. 中外企业家,2016,(29):265-266.
  [3]万济萍,刘子菡,王�h,刘婉姬,张清涛,辛杰. 基于语音识别技能口语自动评测的专利分析[J]. 电声技能,2012,(S1):53-56.
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1126/47256/
 与本篇相关的热门内容: