未来智讯 > 人脸语音识别论文 > 非特定人语音识别关键技能研讨

非特定人语音识别关键技能研讨

发布时间:2018-11-29 01:06:05 文章来源:未来智讯    
    非特定人语音识别关键技能研讨作者:未知   摘 要:针对市场上语音识别系统难以个性化更改关键词识别列表、实时性不佳等问题,文中设计了一款基于嵌入式的非特定人语音识别系统。该系统具有可个性化设置识别列表、完成非特定人语音识别等功能。通过对不同说话人的语音进行测试证明,该设计达到了预期效果,在相对安静的条件下,系统的识别率接近95%,且操作便捷、算法大略,具有很好的实时性,可进一步运用于与语音识别相关的电子产品中。
  关键词:嵌入式;语音识别;非特定人;隐马尔科夫模型;LD3320;LP2303
  中图分类号:TP39;TN912 文献标识码:A 文章编号:2095-1302(2017)10-00-03
  0 引 言
  当今社会已经朝着现代化、信息化、智能化的方向发展,信息技能的浪潮定会使得人们的生活迈上一个新台阶。在这其中,人工智能将体现出巨大的优势,语音识别作为人工智能的一个重要分支,是进行人机交互的关键技能。
  非特定人语音识别技能已渗透到人们生活及事务的方方面面,嵌入式系统具有功耗低、本能高、成本低等诸多优点,能够满足现代社会对语音识别产品高本能的需求。因此基于嵌入式语音识别系统具有更大的应用范围[1]。当前大局部语音识别系统都基于软件实现,而理想的嵌入式非特定语音实时识别系统相对欠缺,且传统的嵌入式系统有其固有缺点[1],因此,在研讨语音识别关键技能基础上,设计并实现了一款新颖的嵌入式非特定人语音识别系统。
  1 语音识别理论基础
  语音识别的前期事务,需要对语音信号进行处理。由于语音信号是模拟信号,很难直接进行识别,应先进行数字化处理,将语音模拟信号转换成数字信号。
  由于语音信号的能量大局部都分布在频率较低的局部,所以需要提高高频局部的能量。而由于语音信号具有临时平稳的特点,因此可将语音信号进行分帧加窗处理,更方便分析。找出语音信号的起初和结束时刻,能够提高识别效率。因此需要再对数字信号进行预处理(预加重、分帧加窗、语音降噪、端点检测)。预处理之后,需要对信号进行特征参数提取,为语音识别做筹备。目前使用较多的特征参数提取方法是Mel频率倒谱系数(MFCC),因为MFCC更能体现出人耳的听觉特点[2]。
  目前主流的语音识别算法有DTW(动态时间弯折技能)、HMM(隐马尔科夫模型)、ANN(人工神经元网络)[3]。联合本文设计的特点,HMM包含两个随机过程,巧妙模仿了人类的发音特点,因此采用HMM模型更为合理[4]。
  2 系统的软硬件设计
  2.1 整体方案设计
  设计的非特定人语音识别系统,主要由三大局部组成,包含以STM32F103ZET6为核心的STM32开发板、LD3320非特定人语音识别芯片、LP2303接口转换模块。将LD3320模块和LD3320模块通过SPI接口和USART接口连接到STM32开发板上,组成了一个完整的非特定人语音识别系统。
  系统选取STM32F103ZET6单片机作为主抑制器。这是一款拥有低功耗、低成本、高本能特点的单片机,ARM Cortex-M3�槠淠诤耍�同时内部还拥有128 KB Flash、20 KB SRAM、两个SPI、三个串口、一个USB、一个CAN等[5,6]。采用LD3320作为语音识别芯片。LD3320是一款专用的非特定人语音识别芯片,可直接用于识别,并且支持识别列表随意编写,使得使用更加方便。通过LP3320接口转换模块能够将PC机和语音识别系统连接起来,从而将识别结果打印在串口中,方便查看语音识别结果[7]。
  2.2 硬件设计
  本系统作为非特定人语音识别系统,语音识别芯片的选择尤为重要。综合各方面考虑,系统选用LD3320语音识别芯片。将STM32开发板、LD3320模块和LP2303模块连接起来,组成一个完整的语音识别系统,通过观察开发板上LED灯的变化情况和串口显示结果判断识别结果。硬件设计框架如图1所示[8]。
  2.3 软件设计
  文中选择LD3320作为语音识别芯片。LD3320是由ICRoute公司设计生产的非特定人语音识别芯片,该芯片识别原理如图2所示[9]。论文的软件设计主要应用Source Insight开发环境。Source Insight是一种本能优良的语言编辑工具,几近适用所有语言[10]。
  (1) 初始化。完成复位、事务模式设定、设置事务频率以及FIFO设定的操作[11,12]。
  (2) 写入识别列表。识别关键词的格式是 “标号识别关键词”[13]。识别关键词需要以字符串的格式来设置。关键词格式见表1所列[14]。
  表1 识别列表实例
  标 号 字符串
  1 yuwen
  2 qianrushi
  3 woxihuanyundong
  (3) 起初识别。设置相关寄存器中的内容,为进行起初语音识别的事务作相应的筹备。语音识别流程如图3所示[15]。ADC增益可设置在00H-7FH之间,最佳设置在40H-6F之间。声音增益的大小和系统敏感性有直接联系,增益越大,系统对外界环境越敏感,增益越小,可避免远处噪声对系统的干扰。
  (4) 响应停止。当麦克风采集到声音时,不管识别结果如何,都会产生一个停止信号。停止服务程序的具体流程如图4所示[15]。从BA寄存器中能够得到若干识别结果,最佳识别结果从C5中得出。
  3 实验结果与分析
  对非特定人语音识别系统进行测试,通过实验结果来判定系统本能的优劣情况。语音识别系统的本能与词条长度和声音(每个人声音不同)有关。本次测试分辨选择2个字、3个字、4个字及5个字的词条,同时选择不同的人与不同长度的词条,经多次测试来判断系统本能。   完成设计的测试事务,需要经过编写程序―编译―参数设置―下载流程。
  在语音识别前期,需完成一些筹备事务。最初建立Keil工程。本次设计在Device下选择STM32F103ZET6;在Keil工具栏中选择Project,然后点击Options for Targe t’USART’,在Output中勾选“Creat EX File”,在Debug中选择“ST-Link Debugger”;在串口调试助手中设置相应的参数,其中,波特率为115 200,数据位为8,中断位为1,校验位为None,流控位为None。
  对着LD3320 Board的MIC顺序说出测试指令,并准时记录每一条指令识别成功的次数,完成相关测试事务,测试结果见表2所列。
  根据本次系统的测试,可得出以下结论:
  (1) 对照表2中第4列和第5列的数据可知,与相对安静的环境相比,在存在少许噪声的情况下系统成功识别的次数降落。由此可知,在相对安静的条件下,系统的识别率较高;在有少许噪声的情况下,系统的识别率降落。
  (2) 对照表2中第1行、第3行、第5行和第7行的数据可知,随着指令长度的增加,系统识别成功的次数将削减。因此系统的识别率将会随着指令长度的增加而降落。
  (3) 在识别过程中发现,随着指令长度的增加,在可以识别成功的条件下,系统的识别时间将会增加。当识别词条分辨为2个字和5个字的情况下,差别会更加明显。
  4 结 语
  在安静环境下,LD3320语音识别模块的识别率较高,指令内容较短时,其平均识别率接近95%。该系统具有可动态编写识别列表、可完成非特定人实时语音识别功能,并具有良好的可扩展性,可进一步应用在实时语音识别的电子设备中。
  参考文献
  [1]许春冬,夏日升,应冬文,等.面向语音增强的序贯隐马尔可夫模型时频语音存在几率估计[J].声学学报,2014, 39(5): 647-654.
  [2]方敏, 浦剑涛, 李成荣,等.嵌入式语音识别系统的研讨和实现[J].中文信息学报,2003, 18(6): 73-75.
  [3]许春冬,张震,战鸽.面向语音增强的约束序贯高斯混合模型噪声功率谱估计[J].声学学报, 2017, 42(5): 633-640.
  [4] KARRAY L, MARTN A. Toward improving speech detection robustness for speech recognition in adverse environments[J]. Speech Communication,2003,40(3):261-276.
  [5]张戟,杨腾飞.车载自动语音识别系统设计[J]. 佳木斯大学学报(自然科学版),2011,29(2): 201-205.
  [6]龙顺宇, 郑泽龙, 谭冬凤.基于STM32和SD卡文件系统的非特定人语音识别系统设计[J].现代电子技能, 2013,36(21): 62-66.
  [7]文治洪,胡文东,李晓京.基于PL2303的USB接口设计[J].电子设计工程, 2010,18(1):32-34.
  [8] Yang B, Lugger M. Emotion recognition from speech signals using new harmony features[J]. Signal processing, 2010,90(5):1415-1423.
  [9]金鑫,田�模�阙大顺.基于LD3320的语音抑制系统的设计实现[J].电脑与信息技能,2011, 19(6):22-25.
  [10] Reichl W, Chou W.Robust decision tree state tying for continuous speech recognition[J]. IEEE Transactions on Speech and Audio Processing, 2000,8(5):555-566.
  [11]杨熙,张文昭,梁晓琳.语音识别在智能家居抑制系统的应用[J].湖南科技学院学报,2016, 37(10):34-35.
  [12] Lavner Y, Gath L, Rosenhouse J. The efects of acoustic modifications on the identification of familiar voices speaking isolated vowles[J]. Speech Communication, 2000,30(1):9-26.
  [13] Joseph Pieone.Continuous Speech Recognition using Hidden Markov Models[J].IEEE Assp Mag, 1990,7(3): 26-41.
  [14]�晨帆.基于LD3320芯片的语音识别系统[D].南京:南京大学,2015.
  [15] LD3320开发手册[EB/OL].http://www. icroute.com.
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1129/48684/
 与本篇相关的热门内容: