未来智讯 > 人脸语音识别论文 > 基于语音识别的电源开关的研究

基于语音识别的电源开关的研究

发布时间:2018-05-09 11:33:00 文章来源:未来智讯    
    关键词:语音识别 (VR);VR Stamp;电源开关
    中图分类号:TN912.34 文献标识码:A文章编号:1006-8937(2010)02-0110-03
    
    过去,语音识别的应用一直局限于基于 FC 的系统、电话服务器、高端手机和 FDA 。但近年来,技术的进步已使得低成本的语音识别处理器在消费电子领域得到应用。现在的语音识别处理器集成了更多功能,它们的精确度也更高,并有更好的开发工具支持,这使得在消费电子产品中添加语音I/O 变得相对容易。在用语音控制家庭环境照明便是一个具有市场潜力的消费应用。
    1语音识别的常见类型
    语音识别(有时也被称为声音识别或 VR)技术可分成三大类:与说话人无关(SI)的识别技术、与说话人相关(SD)的识别技术和语音确认(SV)技术。每种技术都有各自的优点,适用于不同的应用。采用 SI 技术的产品要求无需对使用者进行培训便可使用的语音指令。例如,与说话人无关(SI)的识别技术通常最适合用于照明控制器。就像我们用名字来引起他人的注意一样,用一个被称为“触发(trigger) ”的SI指令来激活照明控制器也是一个不错的方法。照明控制器被激活后,它可以接受多个指令。集成了语音识别功能的产品通常需要一种方法,以让使用者知道它们己经听到指令并准备接受下一个指示。也就是说,它们必须让使用者知道该产品己在控制流程之中。由于控制流程十分简单,照明控制器将用一个短音作为应答,这可缩短使用者与控制器的交互时间,而且如果发生误启动也不会导致太大问题。由于语音是人类的天生交流方式,所以语音识别功能可以增加产品的易用性,此外它还延伸了使用者的物理控制范围。例如,一个语音控制的照明开关即可提供此类价值。或许使用者正坐着看电视,而照明开关不在伸手可及的范围内,或者环境大暗,看不到照明开关,此时借助一个简单的语音指令就能方便地解决这些难题。
    2语音控制照明控制器的设计原理
    2.1设计中常见因数考虑
    因为语音识别技术是建立在概率函数的基础上,所以设计者必须在接受指令(包含在识别指令集合中的指令)和拒绝指令(不包含在识别指令集合中的指令)的重要性之间做出折衷。例如,如果该产品必须反应非常灵敏,且偶尔发生误接受(误启动)也不会酿成大问题,则应用开发者可能倾向于接受指令更重要些。而其它一些应用则不允许误启动,如声控烤箱或照明控制器。背景噪声是语音识别的克星。检测和识别均要求信噪比(SNR) 在合理的范围之内约为 3 : 1 或更高)。如果应用条件允许,最好使用定向麦克风或近讲麦克风来降低噪声。成本也是一个考虑因素。当最终使用者购买产品时,产品价格已经是原始制造成本的 4 ~ 5 倍。幸运的是,目前市场上提供的高集成度语音处理器包含了所必需的麦克风前置放大器、模数转换器(ADC)、数字滤波器、内核处理器、数模转换器(DAC)和数学运算引擎。这些处理器同样捆绑了从文本输入到与说话人无关(T2SI)的识别及合成技术。这些芯片也可充当各种消费产品功能的主控制器,而且其价位对消费电子产品来说颇具竟争力。这使得产品在增加语音功能的同时,只增加很少成本,或不增加成本。这些优异的性能使VR照明控制器非常具有吸引力,同时还有助于解决该应用中的语音识别挑战。在家庭环境中,远距离识别一个指令意味着要排除人说话、电视、音乐、碗碟碰撞和撞门等背景噪声的影响。此外,这类应用也必须能适应不同性别的成人和孩子。语音识别输出的信号完整性只跟经过处理的信号一样,因此适当的麦克风电路设计是最基本的。麦克风电路的设计应使得麦克风、偏置电阻和前置放大级的组合电路可以充分利用 ADC 的输出位数,即尽可能利用ADC 的输出位数来达到最佳分辨率,并且不饱和。另外,设计还应考虑到人们轻声或大声说话时的可能功率范围,以及照明控制器可能被使用的距离范围(通常最大约为 10 英尺)。最好把照明控制器设置成避免误启动,(在嘈杂的环境中,使用者有时可能不得不重复发出指令),利用 Quick T2SI 工具的设置可实现这点。保持指令集的规模尽可能小,对尽量减少错误指令带来的误操作十分重要,特别是在嘈杂的环境(如在家中)。为使指令之间的差异最大,T2SI指令在声音和长度方面应尽可能地不同。最后,照明控制器的逻辑流程必须简单、自然,方便使用。为避免使用者混淆,应尽可能减少从引起照明控制器的注意到进入活跃指令集状态的控制步骤。活跃指令集应一直包含触发字的复本,因而使使用者可以在任何时候重建自己在该流程中的位置。触发字应该很易于地与照明控制功能关联起来,而活跃指令必须是照明控制最常用的。
    2.2硬件设计
    为简化照明控制器的开发,本例中使用了 Sensory 公司的VR stamp . VR stamp 是一个包含 Sensory RSC - 4128 微处理器、音频电路分立电容和麦克风前置放大器、3.58 MHz晶振、复位电路及用于存储程序代码的128 kB闪存的低成本模块。VR Stamp还带有128 kB的串行 EEPROM 存储器,但在照明控制器应用中没有用到它(见图1)。VR Stamp工具套件包括VR Stamp、集成开发环境(IDE)、Quick T2SI、 FluentChip库(具有各种语音识别和合成功能,包括 T2SI)、VR Stamp编程板和支持文件。在这个由语音激活的照明控制器电路中,VR Stamp模块接受使用者发出的语音指令, 然后提供控制信号来打/关灯,并通过设置占空比来调节想要的电灯亮度。该电路由120 V、60 Hz的交流线电源供电。变压器(T1)和二极管侨(Dl)完成从交流到直流的转换和整流。 RSC - 4128工作在2.4~3.6 V 的范围内。稳压器(Ul)向 VR Stamp 模块提供稳定的3.3 V电源。3300欧姆的电阻(Rl)将交流线性电流降低到几个毫安,以使 RSC-4128 能够检测电压何时出现过零点。内部二极管的作用是防止芯片因输入电压过高而损坏。两端交流开关元件/三端双向可控硅开关元件对(U2/Q2)在输出端(P2)控制交流线电流。为滤除VDD的低频纹波,必须使用 100uf 的电容(C3) ,因为不稳定的VDD:将会耦合到音频电路中,并将降低语音识别的精确度。用于语音识别输入的麦克风(MKl)和用于声音输出的扬声器(LS1),实现该应用的功能模块。这是一个被来用为电灯供电的经典电路。通过延迟启动,该电路还可以减弱灯的亮度。本设计实现了4个照明开关亮度级别,其中“最亮”和“关灯”分别采用100%和0%的占空比,“中等亮”和“暗”分别采用大约 50%和100% 的占空比。在设计带有语音识别功能的PCB时,设计者应该记住两个设计原则:
    ①保持模拟电源和模拟地的稳定应利用稳压器使电源信号和地信号尽可能保持稳定。应合理设计 PCB 布局和走线,以使所有的模拟电源和模拟地信号与数字地分开。模拟电源和模拟地应分别连接到主电源和主接地上(对于本应用为稳压器 )。这种连接方式通常被称为“星形接地”。把稳压器放在尽可能接近VR Stamp 的 MIC_RET 引脚的地方,并对所有电源和地信号使用粗的电线和PCB 走线。

         ②麦克风连线尽量短,并带屏蔽保护使 PCB 上所有模拟走线尽可能短是一种好的设计方法。特别是,从麦克风的正输入端到VR Stamp 的主音频路径尽可能短。 高阻抗音频信号的振幅仅为几毫伏的峰峰值。为避免来自数字噪声和电磁干扰(EMI)的天线效应,必须使用屏蔽线缆连麦克风与该电路。 VR Stamp被设计用来利用廉价的全向驻极体麦克风提供出色的识别性能。本应用中选用了松下公司的WM-64PKT,但也可以使用许多其它制造商和其它型号的产品。虽然驻极体麦克风要求一个外部电源驱动内部 FET 缓冲器,但被偏置后,它们也可作为电流源使用。此外,偏置电流控制整个麦克风的灵敏度。在这个调光开关中,采用了灵敏度为-44dB 的麦克风。如果采用不同灵敏度的麦克风,则应按下面的公式修改麦克风的偏置电阻(R4) :
    其中 Sensitivity是你想要的麦克风灵敏度(在麦克风规格中以-dB为单位),R 是麦克风阻抗,Rs 是对获得结定灵敏度所需的麦克风偏置电阻R4)。麦克风的布局也VR设计成功的关键因索,应记住3个重要的设计原则。
    ①埋入式安装 麦克风元件应放在尽可能接近安装面的地方,而且应充分固定在塑料壳体上。在麦克风元件和塑料壳体之间不能有任何空隙。 ②无障碍物且孔足够大 为避免影响识别效果,须保证在麦克风元件前面的区域内没有任何障碍物。麦克风前面的外壳的开孔直径至少为5 mm。如果必需在麦克风前加上塑料表面,应使之尽可能薄,如果可以的话,最好不超过0.7 mm 。
    ③隔离为避免因操作或震动产品而产生的听觉噪声被麦克风“获取”,麦克风与壳体之间应该进行隔音。设计者只需把待识别的字或短语键入到文本框中 ,按下“ Bui1d ”按钮,一个定制的SI集合就创建好了。注意的是,应把触发字输入到触发字文本框中,把指令输入到指令文本框中。可以利用PC对这些字和短语进行测试,也可以把它们下载到 VR Stamp中进行测试。如果一些字难以识别或易于产生混淆,设计者应调节识别字和短语的发音,并马上重新测试。 Quick T2SI 工具也可创建可以链接到任何 T2SI 应用的目标文件。应把 Quick T2SI工具中的“out of Vocabulary Sensitivity”项设置成“ Reject More”或“ Reject Most”以减少误启动。应该对 T2SI字进行仔细选择,以便VR能很容易地区分它们,而且这些字对使用者来说是很自然的。例如,“on ”和“off” 就不应列入 T2SI 字,因为两者的发音太相似,很易于引起混淆。如“power”等较长的字是更好的选择。此外,可以把这个单独的字用作开/关灯的开关。而其它的指令词, “dimmer low”、“ dimmer medium” “dimmer high”和“light switch”都足够长,差别很大,不太可能引起混淆。
    3 结语
    语音开关的设计需要考虑的因数很多。文章介绍的语音开关的设计思路能较好的满足家用照明电路的控制。实际的产品中根据用途的不同设计的方法和思路各不相同,并且在实现上也有着难易之分,具体采用哪种设计方法和思路需根据系统的实际要求和性价比来选择。
    
    参考文献:
    
    [1] 吴铮山.电子线路设计与实践[M].北京:电子工业出版社,2005.
    [2] 高平.电子线路设计基础[M].北京:化学工业出版社,2007.
    [3] 赵广林.新型语音芯片应用手册[M].北京:电子工业出版社,2008.
    [4] 何立民.语音合成技术与单片机综合系统[M].北京:北京航空航天大学出版社,1993.

转载请注明来源。原文地址:https://www.7428.cn/page/2018/0509/16622/
 与本篇相关的热门内容: