未来智讯 > 人脸语音识别论文 > 中文语音辨认体系切磋与探寻

中文语音辨认体系切磋与探寻

发布时间:2018-12-06 01:06:01 文章来源:未来智讯    
    中文语音辨认体系切磋与探寻作者: 陈佳硕 付兴建   【摘 要】跟着社会文雅的前进和科技程度的成长,人们在餍足了生涯和糊口的必要之后,不息地寻求着更高的糊口质量。现在谋略机为人类服务已经渗透到了糊口的每一点一滴。然而,传统的把握体式格局已经不克不及餍足当今社会的节拍需求。使用中文语音作为新的把握体式格局,能够为用户带来更好的服务体验。本文阐明了中文语音辨认体系的搭建要领以及应用偏向。
  【关头词】语音辨认;中文辨认;人造分词;把握体系
  【中图分类号】TP311 【文献标识码】A
  【论文编号】1671-7384(2014)02-0069-03
  引 言
  谋略机现在云云遍及,谋略机成长速率完全超乎想象。但今朝为止,真实具备与人交流功能的电脑还不存在。有如许一个图灵测试——让测试员与被测试者和一台机械在离隔的环境下,议决一些装配向被测试者随便提问。问过一些问题后,若是测试人不克不及确认被测试者30%的回复哪个是人、哪个是机械的回覆,那么这台机械就议决了测试。可惜的是,现在环境下最佳的成就是由俄罗斯专家设计的“叶甫根尼”电脑步骤,也不过到达了29.2%。
  语音,是人与人交流的一种手腕,也是人类交流和互换信息中最便捷的东西。退而求其次,要做到议决图灵测试,不如先让电脑议决语音作为引信来帮人类干事情。为了充分阐明语音辨认这套体系的原理,本文将小局限重现语音辨认原理。
  对付语音辨认之后,让谋略机去领会人的意思,不行缺少的便是将文字信息转化为谋略机能领会的内容。把谋略机比作一小我手中拿着一本象形文字对比手册,身处上文说的图灵测试的屋子中。而另一人则在房间外向此房间发送象形文字问题。房间内的人只需按照对比手册,返回击册上的象形文字谜底即可。终究只必要让谋略机通晓我们的意思,并非让谋略机来帮我们去思索。是以,只要赐与足够多的“稿纸、笔”以及足够大的“辞书”即可。
  此次我们对体系的切磋使用的是C说话,因为并异国选取面向对象化的说话来编程,大局部步骤使用的编程并异国向“类”内里填充“要领”的观念。这套体系硬件开辟、硬件编程选取的是51单片机来兑现,后期的处置则是在上位机议决钩挂体系钩子读取内存来兑现。下面,我们将一步一步叙述构建这个体系的过程。
  平台构建
  现在,外洋已经有许多制品语音辨认体系,中文的语音辨认把握体系也有许多的企业、教诲科研机构在做有关的项目。只是这些切磋却依然停顿在低级阶段。由于中文是天下上最难学的说话,人来进修尚且云云,更况且人来教给机械去辨认。
  虽然云云,做语音辨认起首要有一个平台往复搭建中文语音辨认体系。第一步要做的就是将声音讯号转化为电讯号。这里选取一个高阻抗麦克风,作为音源进行声电转化。平日的麦克风是三个端子输出,离别是两个旌旗灯号源和一个接地端。大局部的麦克风两个端读入的是不异旌旗灯号,少局部高品质的则读入的是差分旌旗灯号。
  麦克风的输入是毫伏级别,近似氛围声、作梗波城市使得输入的旌旗灯号有噪波。是以,输入的两个端离别进行旁路电容滤波等操作,去除杂波。无源麦克风的输入电压过低,之后要将旌旗灯号接入放大器,放大后的旌旗灯号才气使得后续的操作中,模仿—数字旌旗灯号转换器得到足够被感到的旌旗灯号强度。
  理论上讲,音频旌旗灯号能够看作周期旌旗灯号,按照傅立叶级数定理可知,任何周期函数都能够用正弦函数和余弦函数组成的无限级数来表现。是以,议决将音频旌旗灯号进行傅立叶级数伸开,去除杂波频段的波形即可获得优质波形。
  而实践中,议决硬件操作程序较为啰嗦,软件剖析必要时间较长,出于经济等方面因素思虑,本体系不选取傅立叶变换来兑现辨认音频特征,而选取比力法取波形相似度等体式格局进行辨认。
  语音辨认
  上文中的旌旗灯号颠末模仿—数字转换器转换成为了数字旌旗灯号,接入处置器的IO接口线程中,此时,读入的旌旗灯号会议决地址总线和IO端口读入。是以在硬件上,我们使用间断步骤来进行旌旗灯号预处置。
  软件方面间断步骤局部,仅必要将读入的IO数据以数组体例存插进内存即可。
  声音有三要素:音高、响度、音色。读入的旌旗灯号即每个时间点的声音感受器震荡位置,我们能够议决电流接入到压片陶瓷上来还原声音,而若是我们要去剖析音频则必要对比三要素动手。
  响度即声波数组中的数值高低,为了让声波数组中的响度和预存的响度不异,我们议决统计整段中有用波形能量数值和与预存数组的能量数值做比率处置,使得响度和预存数组附近。
  音高即声音的频率,频率的界说是:单元时间内完成振动的次数,是描绘振动物体来去运动频仍水平的量。议决声波数组寻觅相邻两点是否为相背数,即可寻觅到过0点次数获得频率。这时,时间段的频率即可求出,间接可获得整段声音的频率。
  我们发现,对音高进行频率化处置,同样也必要对预存数组进行频率化处置。是以,纵然我们能够去频率化处置提高辨认精度,但比拟对音频直接做响度匹配,所谓黑盒操作更易于剖析和匹配。
  汉语是由声母和韵母构成的,议决五声韵母和声母匹配,即可收罗有限个声源。用这些声源和预处置的声音进行匹配,即可得出每个字的读音。
  上述的步骤段不过匹配所必要的函数,在外部必要轮回来赋给数组对应指针位置才气兑现,在对照中,若何确定发端是一个难点。是以必要对音频数据的发端做辨认。在本体系中,选取读取5个相邻数据,若是赓续的峰值高于30且持续了跨越25毫秒以上,则剖断这个时间点为数据的起点。
  在体系中,虽然我们选取了去除发抖的算法,但声音音响处置事后,也会迷失一些精度,此处的算法若提高精度,则必要在前期处置做凭据喷鼻农采样定理谋略低通讯道的最高大码元传输速度,进而做切确的采样以及还原,同时滤波选取更进步前辈的算法来兑现,这里只兑现采样而不做邃密评论辩论。
  人造分词
  中文,全天下有近20亿的人在使用。然而,中文的语法是天下上无章可循的语法之一。昔人云:“句读之不知,惑之不解”,想要用中文交流,就务必知道若何断句。如许,才气正常地和人交流,才气清楚地舆解对方的意思。   欲断句,先断词。让谋略机来执行把握,而谋略机处置的倒是整个词组。前面程序已经叙述了若何将语音辨认成一个个的单字,辨认成一个个句子。可是中文并不像英文,说“我是一个学徒”这句话的时辰不会像“I am a student”如许中央有空格从而判别词组。这就必要我们对句子做一个特殊的处置——人造分词。
  以“我是一个学徒”为例,人类来领会这句话,他的意思便是“‘我’的职业属性是学徒”。从这个例子能够看出,提取“是”这个动词为关头字,便能够将前后转折为赋值表达式的体例“我->职业=学徒”。
  优先提掏出一句话的动词,是分词处置的关头。但并非每个动词都能够如许来操作,例如,“他弯腰下台”,很较着“弯腰”是个动词,“下台”也是一个动词;若是按照上文中所述,“他->弯腰=下台”就会出问题。为了处置这个问题,我们引入当代汉语中及物动词和不足物动词的观念。将“弯腰”、“下台”这种不足物动词和“打”、“吃”如许的及物动词分隔。
  固然,这必要字典来处置,借助当代科技的成长,一本电子版的当代汉语辞书就能够解决这个问题,议决词库来查询每个词语的意思,从而抽离出动词。我们只必要设计不足物动词代表动作即可,如许就能够将信息存储成“他->动作=弯腰&下台”。
  如果英文,云云做便能够了。但上文说过,中文语法是天下上无章可循的语法之一。英文中配置了动词字典基本上就处置了大局部问题。可中文中会呈现如下句子:“今天的竞赛在大学徒举止中心召开。”
  人造模仿电脑来领会,副词能够润色形容词、润色动词,用副词来润色摸索:竞赛能够“不竞赛”不克不及“很竞赛”,是以它不是形容词,而是动词,“我竞赛你”这句话欠亨,是以是不足物动词;“举止”和“召开”也是同理,是不足物动词。是以这句话要领会成“今天->动作=竞赛&举止&召开”。
  但不克不及说“今天->动作=竞赛&举止&召开”,很显然这句话真实的意思是“竞赛->所在=大学徒举止中心”。呈现这个问题,焦点缘故便是谋略机异国把“大学徒举止中心”当作一个词,任何一本字典都不会去收录“大学徒举止中心”这个词。
  在中文分词中,中科天玑出品了一套中文分词体系架构,加载头文件"ICTCLAS50.h"能够用头文件界说的下令#pragma comment读取它所供给的数据库(lib,"ICTCLAS50.lib")
  执行过该步骤段后,会将分词了局以test.txt的体例留存在硬盘中。
  结 语
  做完人造分词,基本上也就兑现了读取用户所要到达的目的。这套体系贯串底层到软件层,若是有可能甚至必要设计到云端。虽然部分的测试异国呈现重要的错误,但因为时间缘故,并异国做综合测试。
  个中的一些理论和实践跟尾的处所还存在着不及,一些算法也存在着改良的空间,但这些问题终将在以后获得解决。也但愿这套体系能在最终的实践和成长中真实用于糊口,从而供给更好的糊口体验,为人们体验糊口、享福人生做出进献。
  基金项目:本文系北京市天然科学基金项目(4132009);北京市属高档黉舍高条理人才引进与造就筹划项目(CIT&TCD201304120);北京市教委科技筹划项目(KM201211232008)的切磋成果。
  (作者单元:北京信息科技大学主动化学院)
  参考文献
  何嘉. 基于遗传算法优化的中文分词切磋[D].电子科技大学,2012.
  赵培. 中文语音辨认了局文天职类的切磋与兑现[D].大连理工大学,2008.
  曹卫峰. 中文分词关头技艺切磋[D].南京理工大学,2009.
  龙树全,赵正文,唐华. 中文分词算法概述[J]. 电脑常识与技艺,2009,10:2605-2607.
  宋勇刚. 图灵测试:哲学争辨及汗青身分[J]. 科学文化评论,2011,06:42-57.
  谭超. 进修型中文语音辨认体系切磋及兑现[J]. 电脑开辟与应用,2012,04:35-37.
  胡宝洁,赵忠文,曾峦,张永继. 图灵机和图灵测试[J]. 电脑常识与技艺,2006,23:132-133.
  陈淑芳. 基于51单片机的讲授尝试体系的设计与开辟[D].中国海洋大学,2011.
  张文国. 中文语音辨认技艺的成长近况与预测[J]. 上海微型谋略机,1998,35:46.
  张宜. 汉语语音辨认技艺的切磋与成长[J]. 广西广播电视大学学报,2003,04:18-22.
  申小龙. 汉语动词分类切磋述评[J]. 绥化师专学报,1988,04:63-72.
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1206/51762/
 与本篇相关的热门内容: