未来智讯 > 人脸语音识别论文 > 语音识别 理想与现实的距离
    语音识别 理想与现实的距离作者: 闫 婷   让机器可以听懂人类的语言,一直以来都是人类梦寐以求的愿望。在今天,语音识别到底离我们有多远?   很小的时候爱看科幻小说,在那样的小说中,曾经看到过科幻小说家预言未来的人会长成什么样子。按照达尔文的进化理论,未来的人脑袋将会变得极其之大,而四肢则渐渐退化。因为人类通过聪明的大脑,逐渐让四肢从繁琐的事务中解放出来,最后就会形成脑袋庞大而四肢退化的模样。而语音识别(Speech Recognition)便是在这种科幻进程中解放我们双手的一项重要技能。
  让机器直接可以听懂人类的语言,一直以来都是人类梦寐以求的愿望。可是语音识别技能虽行之有年, 但进展却似乎缓慢。当记者走进中科院声学所的中科信利语音实验室,才切身体会到,其实语音识别离我们并不遥远。
  
  哼唱识别系统
  
  未几前,中科院声学所的中科信利语音实验室开发出了一种“哼唱检索系统”,无需鼠标键盘,对着话筒哼唱出歌曲的旋律就能够检索到哼唱歌曲的曲名。当记者在中科信利语音实验室的会议室,面对屏幕,拿着话筒哼起一段邓丽君的《甜蜜蜜》的旋律时,大概只用了6~10秒,检索系统就自动检索出来了所哼唱旋律的歌名,并附上了完整的歌词。
  “哼唱检索系统是通过旋律匹配进行检索的。”博士毕业论文专门研讨哼唱检索系统的语音助理研讨员李明介绍说。哼唱检索系统根据歌曲旋律的走势来匹配检索,而不是通过音调。因为音调的基准会有所不同,这就大大降低了检索识别的适用性。所以,对于哼唱检索系统的使用者而言,哼唱节奏的快慢,以及记得歌词与否,都对检索识别没有影响。恰是因为此,这套系统在由美国伊利诺斯大学负责主办的国际音乐信息检索评测竞赛(MIREX)中,以92%的正确度获得了第一名的好成绩。
  任何系统都不能只存在于实验室中,哼唱检索系统业理所当然要走出实验室。“我们的哼唱检索系统已经在河北等地的移动彩铃业务中应用了。”中科信利语音实验室研讨室主任颜永红说。“用户通过哼唱一段旋律,就能查找到自己听过却不知道名称的歌曲或彩铃,然后进行点播和下载。这种大规模的商业应用,已经进入了成熟阶段。”颜永红还表示,实验室正在着手和互联网几大音乐内容提供商合作,相信在未几的将来,就能够实如今互联网上哼唱一段旋律来检索歌曲名称。
  
  提高识别率
  
  对于中科信利语音实验室研讨出来的这套哼唱识别系统,还有一个更好的应用前景便是在KTV等场所的歌曲检索。对于爱好唱歌的人而言,一定都有过这样的履历: 往往熟悉一首歌曲的旋律,却记不住歌曲的名称。特别是在KTV点唱时,K友通常会遇到这样的问题,想唱却又找不到歌名。哼唱检索系统正好解决了这样的问题。试想,当有一天,我们在KTV中点歌时,不必再通过繁琐的手动操作界面,而只需要通过口头来完成,那种感觉又岂是方便两个字能大略概述的。而这种搜索模式的实现,其实只要在KTV的点歌系统中嵌入哼唱检索系统的技能就能够了。
  然而,中科信利语音实验室开发出来的哼唱检索系统对哼唱的环境是有所要求的。“我们的检索环境要求是要相对安静的。”李明这样介绍说。那么,对于KTV中过于嘈杂的语音环境,哼唱检索系统,如何发挥他的威力呢?
  “目前语音识别技能需要解决的问题,一个是对噪音环境的处理,一个是对不同口音的识别,再一个便是要不时提出好的算法。”颜永红这样对记者说到。语音识别技能的基本原理便是对输入的语音信号进行分析,抽取语音特征参数与存储器中的语音模板的参数进行匹配识别。因此,语音识别技能不但对识别的背景、噪声干扰有要求,同时,对说话者的清晰程度、连贯程度,以及是否口语化是否带口音,也都有要求。这些恰是导致语音识别技能识别率不高的主要原因,也是导致语音识别技能一直没有可以大规模展开应用的瓶颈。
  如何提高识别率一直都是语音识别技能不时挑战的问题。基于目前的语音识别技能,语音识别的应用,应该是相对小众的,而且面对特殊人群的。例如,某一领域,相对安静背景的语音识别的应用,又或,就目前而言,语音识别技能对于盲人群体的作用与帮助要大大高于一般的正凡人。
  
  语音识别搜索
  
  语音识别技能一个很有效的应用,便是语音识别搜索。“语音识别搜索主要有三种方式: 原声搜索、旋律匹配搜索和语音搜索。”中科信利语音实验室副研讨员赵庆卫博士告诉记者。原声搜索是针对原始声音进行完整匹配的搜索。除人声外,其他周遭的一切声音都能够针对原声搜索出其位置。而哼唱检索系统便是典型的旋律匹配搜索。至于语音搜索,是指针对某一特定人员的语音进行筛选搜索的方式。
  在信息疯狂膨胀的时代,对于浩瀚信息中的有效资源搜索毫无疑问是非常重要的。而且,信息已经不单纯是以往的纯文本,而是逐渐发展到了音频、视频领域。以往单纯通过音频、视频文件的文本标签来搜索音、视频文件已经不足以满足用户的需求。通过语音识别对音、视频内容的搜索已经起初广泛应用。
  美国的Blinkx便是最先起初应用语音识别进行内容搜索的网站之一。而在国内,openv.tv也露出了做专业的电视及视频搜索引擎的意图。当文字搜索已经发展到几近没有上升空间的时候,微软、Google这些技能巨头也起初瞄准未来的语音、视频搜索市场。
  未来无限大
  语音识别芯片的应用范围其实十分辽阔: 电话通讯中的语音拨号、汽车的语音抑制、工业抑制及医疗领域的人机语音交互界面、个人数字助理(Personal Digital Assistant,PDA)的语音交互界面、语音智能玩具、家电的语音遥控等。解放双手,丰富沟通,是在这些领域应用的共性。
  除此之外,语音识别还能够给我们带来更多的便利。“语音识别的关键一个是发音评估,一个是内容识别。”赵庆卫说。除了哼唱检索系统以外,中科信利语音实验室在音频水印、发音纠正、语种识别等方面都有成果。音频水印是以编码方式嵌入音、视频文件,主要应用于音、视频文件的版权保护、保密通讯以及广播监听。发音纠正软件能够对说话人的发音进行评估和分析,特别有助与用户的语言学习。据赵庆卫介绍,这种发音纠正已经用于国内局部地区推广普通话的进程中了。
  “市场每年;都在变大。”谈及语音识别市场的未来时,颜永红如是说。根据半导体行业的摩尔定律,硬件成本过高是导致语音识别技能无法在家电等领域应用的主要原因。“早在2002年,技能上就已经实如今电话上应用语音识别技能了,然而却只可用在局部高端手机上。”颜永红说。
  中科信利语音实验室目前一直在和致力于芯片技能的厂商合作,从而有效地解决了语音处理过程中遇到的噪声等问题,提高了声学语音传达的正确性,与语音识别软件技能变成优势互补。
  “希望10年到20年的时间内,语音识别技能会有长足的发展。”颜永红充满期盼地说道。也许过不了多久,面貌焕然一新、同时蕴藏巨大商机的语音识别应用热潮,将会彻底改变人们的思想定势,其实理想和现实的距离并不如我们想象的那么遥远。
  

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1129/48670/
 与本篇相关的热门内容: