未来智讯 > 人脸语音识别论文 > 普通话语音识别中的基本音素分析
    普通话语音识别中的基本音素分析作者: 张燕   摘要:本文对普通话当中的基本音素进行了分析,并将元音的可变性问题单独提出来做了研讨,并根据语音识别中容易产生混淆的音素的声学特征,提出了新的能正确描述音素频谱的特征,使得语音识别的效果得到很大提升。
  关键字:普通话 语音识别 基本音素
  一、普通话基本音素分析
  1.音素的分类。普通话所有的发音,都能够将声母和韵母相拼,再投入声调而成。1958年核准的《汉语拼音方案》将汉语拼音分成21个声母与35个韵母,以及五种音调。但因56个声、韵母中,许多都是由基本音素所构成的复合音,计算机要识别单音特征就显得有一定的难度,为了降低复杂性,先要对普通话的基本音素进行分析和筛选,给从基于音素的语音识别做好铺垫。
  2.音素分析。如果从发音特征来考察,普通话的音素包括元音和辅音两大类。元音在发音的过程当中起到主导作用,辅音则辅助发音,汉语拼音的56个声、韵母发音中,有10个汉语元音和22个汉语辅音。所以掌握好了这l0个汉语元音和22个辅音,就能将所有的汉语拼音的发音拼出。元音和辅音分辨如下:
  元音:a,o,e,i,u,n,仑,i(知),i(资), er;
  辅音:b,P,m,f,d,t,n,l,g,k,h,j,q,x, zh,ch,sh,r,z,c,s,ng
  需要说明一下的是:元音i(知)为zh、ch、sh发音的尾部局部;i(资)为z、c、s发音的尾部局部。在构成汉语拼音的时候,元音i(知)仅在zhi,chi,shi当中出现,它的作用不过为了延长原有发音的尾音。也便是说,i(知)的发音, zh,ch,sh的发音当中已经包含了。所以,在分析基本因素时,只需做好zh,ch,sh的发音,稍微将其尾部延长便可得到zhi,chi,shi的发音。同理,元音i(资)只使用在汉语拼音zi,ci,si中,而其也包含于辅音z ,s的发音中。另外,因为er的发音可由e和r的发音相拼而成,所以它可不作为一个独立音素。根据上述分析,汉语元音音素的数目可由10个减为7个。
  二、元音音素的可变性分析
  1.研讨音素变化的重要性。音节是普通话语音体系当中最基本的结构单位,而音节又是由音素按照一定的方式组成的,所以普通话里面最小的语音结构单位便是音素。能够这样说,发音器官所产生的每次细微的变化,均能够发出不同的音素。因而,分析和探究这些音素在音节当中产生的相互间的变化和影响,对于正确把握普通话的音节或字音,起着相当重要的作用。
  2.音素可变性分析。学习普通话时,正确地发出单元音韵母是学习的基础,然而,这种韵母的发音特点是口形始终保持不变,舌位也不移动,但单元音韵母(元音音素)的变化,便是它们一旦进入复韵母和鼻韵母,或是和声母拼合时,所产生的细微变化会被忽视。对于北方人而言,这种可变性在自然语言环境当中耳濡目染就能学会;但对南方人而言,这种变化是一大难点,所以,正确把握元音音素在音节中的可变性,对于语音识别相当重要。
  3.以原音i为例的分析。元音i是一个前元音兼高元音,当i与e组合成ie音节时,i和e互相影响的结果便是舌位会往两者之间的中部稍有移动,因而元音i的实际舌位就已从高降到了次高;而当i与a组成ia时,因a是一个央元音兼低元音,与i之间的差异较大,融合时的影响也就更大,导致i的舌位从高降到了半高;当i与ou组成iou音节时,因o、u均为后元音,且o为半高元音,故i与ou后,其舌位不但由前往后稍移,并且从高形成了次高并呈半高的趋向,因为惟有这样才能与半高元音o顺畅地进行衔接,于是iou音节既有由前往后的舌位趋向,又表现出高(i)――半高(o)――高(u)的发音曲线;当i与n联合成in时,因为舌尖中音n的舌位也靠前偏高,二者的发音趋向一致,此时只要i的舌尖再往前伸,抵住上齿龈,n的韵尾就变成了,因此鼻辅音n几近不会影响到元音i;当i与ng组合时,因为鼻辅音ng的舌位靠后并偏低,会对i元音造成一定的影响,在发音时,i元音的舌位会变成由高往低、由前往后的趋向,因此前元音兼高元音i在发音之初就已变为次前元音兼次高元音了;i与ong的组合中, o和ng舌位都靠后,并且o是半高元音,ng舌位偏低,受两者的共同影响,i的舌位明显后缩,并且表现出由高往低的趋向,这使其形成了次前元音兼次高元音。
  三、对y、w的音素性质分析
  y、w是两个较为特殊的因素,兼具元音和辅音的一些特点,下面将它们单独提出来进行因素性质的分析。
  1.从发音部位与方法长进行分析。从语音的发声部位和方法来看,发元音时,气流经声门带动声带的振动,通过咽喉、口腔、鼻腔时,没有妨碍;辅音发声时,呼出的气流定会在经过某个发声器官时受妨碍。发元音的时候,除了声带,其余发音器官均保持紧张,而发辅音时,惟有变成妨碍的器官才紧张。例如:辅音[k]在发音时,舌根和软腭会紧张。并且,发元音时呼出的气流没有发辅音时匆忙。由此可见,y、w的发音既接近元音,但又具有辅音的发声特点。这里将y[j]、w[w]两个音素看做辅音,因为“发声时气流有妨碍”是辅音的重要特征,就算它们发音部位接近元音,但满足了这一条件,就该被看做是辅音。
  2.从声带振动特点长进行分析。语音是由声带振动引起空气振动产生音波而变成的,可看做是一种物理现象,所以语音又有乐音和噪音之分。从y、w的发声来看,它们发音时不过引起声带稍微的振动,发出的声音不如元音清晰,从这个角度看,我们能够把它们看做是乐音性的噪音。但在元音的分类中,元音被看做是相当纯粹的乐音,所以,y、w也只可被看做辅音了。
  3.从音节结构长进行分析。在原来的汉语拼音方案当中,[w]、[j]被认为是韵头,是[u]、[j]的改写,所以将其看做元音,但这样分类显然混淆了观念。因为从音节结构上来看,相当明显[wA]与[jA]是音节,而[uA]、[iA]是韵母,如果进行改换,是相当不合理的。再从音位的角度来看,[jA]当中的[j]和[iA]当中的[i],[wA]当中的[w]和[uA]当中的[u]是不同的音位,因为[j]和[A]、[w]和[A]能够组成以[j]、[w]做为声母的音节,它们与[i]与[a]、[u]与[a]组成的音节是不同的,不过作为音节的一个局部――韵母。这样来看, [j]、[w]被看做是具有区别意义功能的语音单位,即音位是合理的,此时,y、w就该被归到辅音当中去。
  从以上情况的分析来看,y、w应该被看做是辅音而作为声母来使用。
  四、结语
  汉语普通话当中易混淆的音素很多,要想让语音识别更精准,就要对普通话的音素进行分析和研讨,并充分明白音素的可变性,并进行准确的分类,惟有在此基础之上,才能提出更先进的识别技能。语
  参考文献
  [1]王红雨,廖逢钗,卢昌荆等.一种基于语音识别的普通话语音失误判别方法[J].三明学院学报,2007(4):452-455.
  [2]徐秉铮,邱伟.汉语普通话声母的分类与识别[C].第五届全国语音图象通信信号处理学术会议论文集.
  [3]黄中伟,杨磊,徐明等.普通话语音识别中的基本音素分析[J].深圳大学学报(理工版),2006(4):356-357.
  [4]李晨冲.汉语普通话易混淆音素的声学区分[D].西安电子科技大学,2009.
  [5]郑泽宏.普通话音节中元音音素的可变性探析[J].职大学报,2011(2):103-105、122.
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1128/48189/
 与本篇相关的热门内容: