未来智讯 > 人脸语音识别论文 > 语音识别技能:人机交互方式30时代

语音识别技能:人机交互方式30时代

发布时间:2018-11-28 01:06:04 文章来源:未来智讯    
    语音识别技能:人机交互方式3.0时代作者:未知   你是否相信,未来你听到的话语越来越多地将由机器发出,而不是你熟悉的由人说出来的?而你说出的话也越来越多地是说给机器,由它们接收、识别、解读,并采取相应的动作,甚至回答你,与你对话。2005年~2009年的这一段时间里,人工语音技能发生了质的飞跃。这个结论并不是来自技能进步的考察,而是来自于应用的普及。从2009年起初,这种人工智能语音应用就已经大规模爆发了。
  其实,人工智能语音早在本世纪初就已经进入人类的生活,并有了非常规模的商业化应用。语音合成在这方面普及得最早,由电子合成的语音报读在公共交通报站、证券、通讯等领域的信息查询应答获得了成功,并且获得了人们的接受和认可。这标志着人工智能语音已经获得进入人类生活的许可证和通行证。
  人工智能语音的时代已经起初了,但它能走多远,可能会超出我们的预料。人工语音技能的普及应用是从人工语音合成后起初的。首先的语音合成是将真人讲的语句、语词片段录音存储,根据需要合成的语句叠加而成。目前还有许多局面使用这种技能,比如公交报站、轨道交通自动报站。如北京的公交车或者地铁(如4号线、13号线)就在使用语音合成技能,你会发现,报出的每个站名(地名)都对照自然,但语词连接语气有点怪。日前,笔者到北京某医院治病,在候诊的时候听到“XX号XXX请到2号诊室就诊”。初听之下,以为是人工叫号分诊,但仔细一听发现原来真是全人工合成的语音。若非仔细鉴别,几近会把它当作是真人讲的。
  
  语音识别:对搜索应用的语音想象
  
  2009年是一个不平凡的年份,这一年全世界的人们都在茫然和期冀中躁动不安。世界经济到底会呈现出什么样的走势?无论是悲观论者,还是乐观主义者,心中的期冀其实都是一样的――人心向好。google、微软、英特尔、摩托罗拉这些信息技能巨头们的选择是维持不懈地推进人机交互技能的进步,这个选择代表了他们对未来的立场。
  在人机智能交互领域,与微软和摩托罗拉依然看重书写不同的是,google把交互重点放在了语音上。当然,作为搜索技能的总统企业,google的语音技能应用重点也主要是在搜索上。只是,我们依然看得很清楚,语音不过人机接口,只是智能交互性得到了极大的加强。
  去年,google在美国发布了英文语音搜索服务Voice Search,应用于Android、诺基亚S60、黑莓、iPhone等多个系列的手机。只是它的竞争对手微软也没有闲着,微软的布局并非刚刚起初,而是远远早于google。
  对于语音识别技能和人工语音技能市场而言,有一个场景应当被记住,那便是2009年11月27日的美国纽约时代广场。这是感恩节后的第一个星期五,是常常所说的“黑色星期五”。这一天,纽约时代广场上的两块大型LED显示屏上,并没有像往常那样播放路透社和纳斯达克的标识广告,而是如同接收外太空信号一般,不停地滚动着手机号码和没有任何逻辑联系的词句。神奇的是,这些是人们拨打888-376-4336后对着话筒任意说出来的,经过号码背后的语音识别系统处理后同步显示在屏幕上的词句,每个词句下面还有似曾相识的搜索结果网页――这是google为旗下的语音搜索进行的一项推广活动。
  
  google将成为处在语音技能应用“风眼”上的企业?
  
  别在意google宣称的退出中国,它不会放弃中国这个市场。几近是在它“退出”中国的同时,google全球副总裁维克・甘多特拉(Vic Gundotra)也在北京向中国媒体展示该公司刚刚推出的中文版语音搜索。“纽约最好的意大利餐厅!”维克・甘多特拉拿出手机放在耳朵上,操着并不熟练的中文大声说道,然后笑眯眯地把手里的手机转向各位。是的,不到一秒钟的时间,屏幕上已经显示出了搜索结果。请记住,他讲的是中文,机器上识别出来的也是汉字。
  权威的IT经理人杂志《IT经理世界》对于语音识别给出了一个生动的描绘:“不需要再噼里啪啦地敲击键盘了,一个并不陌生的语音时代难道已经来临?”
  也许这还不是一个肯定的结论,但手机这个精灵让一切都变得清晰起来。手机将是这场语音化浪潮的中心。“在小小的手机键盘上输入文字搜索信息并不容易,”google中国产品经理许裴说,“一些较长的词,键盘输入不但速度很慢也容易拼错,而我们正在开车的时候是没有办法停下来用手打字的。”
  据微软移动高级总监帕祖斯基(Dariusz Paczuski)统计,使用智能手机搜索一个餐厅需要按键盘超过20次,发短信则需要按更多次键盘。而只需张嘴的语音搜索则能提供更方便、快速和大略的搜索服务,大大降低人们使用手机搜索的门槛。
  手机的演化也为语音搜索的实现提供了硬件基础。如今,几近所有的手机都拥有录音、照相等功能,智能手机的出现则让手机从一个单纯的通话装置形成一台小型的计算设备。按维克的话说,麦克风和摄像头跟互联网相连之后,形成了“云端的耳朵和眼睛”。
  google在成功地击败对手微软,以搜索框超越了操作系统占领了用户的桌面之后,把重点放在了语音搜索上。这是google又一次巨大的跨界战争。去年,google在美国发布了英文语音搜索服务Voice Search,应用于Android、诺基亚S60、黑莓、iPhone等多个系列的手机。
  其竞争对手微软也在早些时候就进行了语音技能的布局。比起google的发展上市速度能够说并不逊色几多。早在2007年,微软就收购了领先的手机语音识别服务厂商TellMe,组成了微软如今的语音团队。TellMe一直在为包括411商务搜索、1-800-555的信息搜索以及美国航空在内的企业提供语音服务平台。微软新的语音团队的首要任务便是把语音搜索技能与Windows Mobile整合起来,移动版Bing搜索在三星手机上已经实现与google类似的语音搜索功能。
  在桌面上,微软早就通过输入法提供语音识别功能了,包括中文语音识别,遗憾的是真正的使用者却是寥寥无几。如果分析原因的话,除了识别正确率还有待提高之外,关键是使用场景问题。在桌面上,使用键盘和手写输入就很方便,而使用语音则显得怪怪的,而且也不是很方便。如果把使用场景换做手机上,情况就大不相同了。这是google的聪明之处,它选择了手机。在能够预期的一段时间里,手机将会成为语音化浪潮的中心。google将又是处在语音技能应用“风眼”上的企业。
  
  语音技能将无处不在
  
  自计算机诞生以来,让电脑认识人们写的字,听懂人们的说的话,就一直是人类的一大心愿和预期。早在上个世纪的六七十年代,计算机语音识别技能就起初了探索。IBM是最早进行语音识别技能研讨的企业之一,上个世纪90年代就推出可用于声控打字和语音导航的语音识别输入软件IBM ViaVoice。不但推出了汉语的标准普通话版本,还推出了四川等方言的普通话版本。用户只要对着电脑讲话即可输入汉字,输入速度能达到每分钟150个汉字,几近是键盘输入的2倍、普通手写输入的6倍。只管售价不菲,但这套软件在全球已售出100多万套。汉王科技当年恰是基于这套软件,开发出了基于语音和手写识别的读写听产品。实现了人和计算机信息交互的“你听我说,我写你认”,从而也奠定了汉王科技今天在人机智能交互领域的领先地位。
  微软在Windows XP之前,就在操作系统中添加了语音识别功能,在新推出的Windows 7里这一功能更为完善。不用键盘鼠标,用户能够通过语音对计算机进行大略的抑制,如说一句“打开浏览器”,就能够轻松地打开IE。
  刚刚上市的Exchange Server 2010中则有更加先进的语音邮件预览功能,能够自动为语音邮件提供文本预览。在不方便收听语音邮件的情况下,用户能够先通过语音邮件预览来明白邮件的大致内容,也能够通过阅读文本预览来决定邮件的优先顺序。
  google则基于Web的云计算将这种语音识别技能带入更广泛的应用领域,不但实现了语音搜索,还为YouTube推出一项新的功能,让用户利用语音识别为YouTube视频添加字幕,这将大大提升YouTube视频的观看体验。毫不夸张地说,语音技能在计算机桌面已经遍地开花了。
  手机这款与人如影随形的东西,将把语音技能带到人类活动的任何角落。一个人如果对着机器说话,各位一定感觉怪怪的。如果是对着手机说呢?再正常只是了。可能感觉怪怪的人是说话人自己,因为那一端的听话者不是人,是机器,是语音识别引擎。说话者知道,他是说给google地图听的,他想知道海淀妇产医院怎么走。也许他正驾车行驶在大连的海边公路上,他可能会对着车载导航念叨这样的句子,“东软信息学院到底在哪呢?”他得到的应答可能是:“您正行驶在滨海公路X段,向前方1.5公里请出5号出口……”这是语音合成的,同时在导航屏幕上还会出现线路图。

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1128/48199/
 与本篇相关的热门内容: