未来智讯 > 人脸语音识别论文 > 语音识别“在路上”

语音识别“在路上”

发布时间:2018-11-22 01:06:05 文章来源:未来智库    
    语音识别“在路上”作者: 文姝琪   “钢铁侠”Tony Stark有一位智能管家,人们看不见它,它却无所不知,是居家旅行、拯救世界的必备良 物。   它满足了人类对于“语音识别”技能的终极幻想。你能够把这位智能管家想象成Siri的未来升级版,它不仅可以完美执行指令,还能根据设备的事务情况甚至主人的心情提出建议。
  下面回到现实。Siri眼下能做的最棒的事情,便是帮忙预订某个旅店房间—诸如此类。只是不用悲观,还有个好消息是,语音识别已经成为众多科技公司的优先发展打算。
  2012年3月,一项可以即时语音翻译26种语言的技能被微软研讨院推出。与其他语言翻译产品不同的是,这项技能除了翻译多种语言之外,输出的语音还能够模仿说话人的音色和音调,使它们听起来接近使用者的真实声音。当然了,如今它听上去还有些生硬,感情色彩还不够丰富。
  这项技能的第一步仍然是语音识别,后者正被越来越广泛的应用在众多不同的领域。微软用它来翻译,在将语音进行识别之后,形成一项名为“跨语言的文语转换”(Cross-Language Text-to-Speech,简称TTS)的技能。使用者只需要预先录下几十分钟的母语作为训练语音。软件在进行识别、翻译之后,就能够模仿说话人的音调和音色将翻译好的、其他语种的文本说出 来。
  此前早已有苹果Siri,它一度是iPhone 4S手机用户的最大乐趣之一。另外在Android 4.1系统中,Google Now除了让用户实现语音搜索,还包含一个自动填充卡片的功能。当用户搜索了一个地点、天气或是航班时间,Google Now会自动建立一个卡片存储细节,供用户以后查阅。
  人们对于语音识别的迷恋由来已久,甚至在计算机发明之前。早期的声码器,能够看作是语音识别技能的雏形。1920年代生产的“Radio Rex”玩具狗是眼下有据可查的最早的语音识别器,当这只狗听到自己的名字时,它就会从底座上弹出来,吓人一跳。
  作为诸多后继的复杂应用的第一步,语音识别—让机器读懂你在说什么,迄今为止仍然是一个大工程。你甚至也能够把它视为众多语音类智能应用向前发展的绊脚石之一。
  如今语音识别的主流技能,由数据统计模型和算法组成。如果把数据统计模型比喻成一个仓库的话,那么算法则是一只机械手臂,从仓库中“抓”出合适的数据进行匹配。算法包括了对数据存放位置的判断等行为准则。数据越多,模型也就越大。
  再大略一点说,当你说了一句话之后,算法会从数据库中抓取可能最适合你意思的那句解释。因此模型中包含的数据越多,常常也就意味着识别能力越强。但问题来了。就像没有一个仓库能够存放世界上所有的货品一样,没有一个模型能够解释所有数据。人们能够说任何话,因此数据变化无穷。
  所以你应该不难理解,以往一些初级的语音抑制类的应用,比如导航、语音拨号等等,人们要启动服务必须按照产品手册的说明,完整地说出固定格式的句子,才能被机器所识别。在这些应用中,数据库是大略而又原始的,在识别过程中也没有太多算法可言,它们不过负责“搬运”。
  包括Siri和微软TTS在内,语音识别被发展到了眼下的第二个阶段:它们能够通过一定的准则和算法,将那些事先没有包含在数据统计模型中的“话”也解释出来,并且足够大略。
  要实现这一点,仍然必须要有一个基础的数据库。在微软的TTS技能中,那几十分钟的“训练”,也就成了一种搜集数据建立数据库的方式。建立数据库的好处在于,“它不可以保证你肯定对,但它可以保证最可能对,或者说可能最好的答案。”微软亚洲研讨院语音组首席研讨员和负责人宋謌平对《第一财经周刊》说。
  当训练完成之后,语音识别就形成了一个排序过程。当一段语音被输入,模型会通过自己的算法,从数据库中寻找匹配度最大的那一句。各家公司不同的“算法”,以及建立起来的基础数据库,成了它们各自在语音识别上的核心技能。
  一段话是谁说的并不重要,更重要的是它的文本识别率。按照宋謌平的说法,一般能达到90%以上的识别率,大局部的用户都能够接受。
  要提高正确率,除了数据库和算法,另一个必须解决的问题便是在噪音环境中更正确地分别出输入的语 音。
  眼下要解决噪音问题一般通过两种办法,一是在训练素材中包括噪音数据,让模型“记住”声音在不同环境下的差异,并在最后识别的时候,对噪音进行降噪处理;另外一种办法,则是识别同样噪声环境里的、没有经过降噪处理的语言。
  在数据库有可能建立得对照大的情况下,搜集到足够的噪音数据、并在噪音中进行识别是一种最好的办法。但现实是,一般意义上的“噪音”太多。比如汽车的引擎、餐厅中的各种声音,性子上并不相同,但都会对说话人的语音输入造成干扰。对于手机而言,计算和存储能力都有限,建立庞大和复杂的模型并不现实,一般会直接使用降噪处理的办法。
  早在1992年,一家名为Nuance的公司就看到了语音识别技能的商机。目前Nuance在美国已经开辟出两局部主要市场,包括咨询业务和医疗诊断记录的听写。2011财年,Nuance的营收共计13.18亿美元,其中产品销售及授权收入占比46%,产品的使用人数已有1600 万。
  这家拥有近4000项专利的公司通过提供面向医疗、手机、汽车等企业的语音解决方案盈利。在美国昂贵的人工费用压力之下,包括美联航和大局部医院在内的机构,都起初选择语音听写引擎这样的识别设备,解决局部客户服务和书写病历的问题。
  将默默埋头赢利的Nuance推向前台的恰是苹果。由于Siri使用了Nuance的语音识别引擎,这家公司起初获得越来越多的曝光。Siri曾在起步阶段使用过其他平台,但最后切换到了Nuance,不知这是否与Siri和Nuance同样出自斯坦福研讨院有关。
  曾有传言苹果与Nuance进行了几个月的接触,试图收购后者,但因其价值连城的专利,以及“在谈判时近乎于乔布斯级别难缠的CEO”,这场收购后来不了了之。苹果通过引入Nuance的语音识别,再将识别之后的信息与其他“知识和资讯类数据库”连接,在人机交互领域倡议了一场革命。
  2011年,通过云端访问Nuance的语音数据库的访问量达到了20亿次。眼下,它们也起初进入中国市场,最新版本的Siri将提供包括普通话、广东话和台湾地区国语的识别。只是中文与英文的识别引擎完全不同,需要重新开发。
  在中国,还没有变成大规模的语音识别应用市场。国内语音市场占有60%以上份额的是科大讯飞,主要营收也不过来自于语音合成技能。它不过让电脑“念”出文本,在电信公司和银行的呼叫中心里较为常用。
  微软创始人比尔·盖茨曾在2008年预测,五年之内互联网的搜索大局部将通过语音完成。如今看来,他或许乐观了一些。即使语音识别技能已经可以适于应用,真正的人机交互还有待于语音识别的更深层—语义识别技能的发展。
  如果从字面上解释,语义识别的意义在于能让机器真正了解信息的含义。当机器听到一个名为“意大利菜”的关键词时,技能优良的语音识别可能会做出搜索意大利菜的反应、或者帮你预订好常去的餐厅,但语义识别则意味着,它还可能了解意大利菜会有什么样的口感、或者探知餐厅的氛围。
  语义识别的终极梦想是让机器完全辨知人类说话的语义和情绪,就像“钢铁侠”的那位智能助手一样。
  与发展相对迅速的语音识别不同,现有的语义识别仍然处于基础阶段,是一种机械的识别过程。“这一类的技能基本上还是填空法。”宋謌平说。当机器听到语音,进行识别之后,会从“语义数据库”中搜索出与其相匹配的关键词,与人的语义理解还有很大区别。
  只是在一些垂直领域,语义识别已经获得了一定程度的发展和应用。中华英才网的控股公司、美国最大的人力资源网站Monster,近来起初在中国市场推出一种名为6Sense的语义搜索专利技能。它能将求职者的事务履历、技术、教育背景和所在地区,与指标职位匹配起来,再对他们进行分析、评级和排序,从而提高HR筛选简历的效率。在人力资源领域,“甲骨文”意味着那家国际知名的企业软件公司,而不是中国古代文字。如果仅仅是围绕在一个特定领域内,系统判断和识别的难度要小得多。
  从长远来看,语义识别目前还有很多尚未突破的难点。最大的障碍事关情感,机器还没有办法理解人类的情感,它们只可通过语音信号的声学变化去捕捉人类的情绪,比如频率和时长这样的参数;此外,因为语言本身的模糊性,识别过程中的关键词抽取也经常出现不正确的现象。
  小i机器人的创立者袁辉说,语义识别的下一步发展,需要长期的、系统的平台去处理每天进来的海量知识和信息,经过长期的集聚,变成工程化的产品,最终才能对知识进行筛选,甚至可以学习新的知识点。
  看起来,“云”或许会是一个解决办法。因为云服务器能够容纳规模足够大的模型。如果能有一种算法,使这种模型具有学习能力,就能够将用户的语义在云端服务器中进行分析,再借助网络将指令和文本回传。
  只管能够用语音操作的手机、PC甚至汽车都离我们不太远了,但要让这项技能真正达到善解人意的程度,还需要很长一段时间。
  还是先慢慢折腾Siri吧。
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1122/45320/
 与本篇相关的热门内容: