未来智讯 > 人脸语音识别论文 > 用互联网头脑做语音辨认
    用互联网头脑做语音辨认作者: 马文方   “本年3月,立异工厂合资人郎春晖对云知声的语音辨认技艺很感乐趣,约我到立异工厂交流。李开复教员的博士论文便是关于语音辨认的,但他觉得这项技艺不行能做得多好,是以良久异国存眷这个范畴了。”云知声信息技艺有限公司(下文简称云知声)总裁梁家恩说,“郎春晖把我拉进李开复的办公室,当着人人的面,他可能觉得不尝尝我们的产物也欠好。赓续试了几句话后,他惊异地问道:你们怎么做到这种程度的?”
  起色
  让谋略机可以辨认人类的语音,从而使得人们可以用本身的母语与谋略机进行人机交互,一直是谋略机学科寻求的指标之一。谈到语音辨认,就不克不及不谈一下李开复。
  1983年秋,李开复进来卡内基·梅隆大学,师从罗杰·瑞迪传授,攻读博士学位。瑞迪建议李开复选择不特定语者的语音辨认体系作为切磋偏向,并建议选取专家体系的要领,来解决让电脑听懂每小我说的话的难题。瑞迪是人造智能范畴的权势巨子,后来还得到1994年图灵奖。颠末近1年的切磋,纵然切磋有了一些进展,但李开复最后相识到,受技艺成长的限定,专家体系相当永劫间内难以解决这一难题。在一位同门师兄的提示下,李开复转而选取统计模子的切磋路径,终获胜利。1988年,李开复得到博士学位。时至今日,语音辨认技艺依旧选取的是李开复开创的统计模子。
  1998年,IBM中文语音辨认技艺Via Voice在国内PC市场掀起了一场中文语音输入高潮。第二年,当今国内最大的智能语音辨认公司科大讯飞降生于中国科技大学。
  同年,出任微软中国切磋院院长的李开复曾告诉媒体,语音辨认必要的谋略资源太多,适用化还要走很长的路。
  “中文语音辨认市场在2000年摆布逐步由热变冷,这首要是因为那时算法还比力低级,对谋略资源的需求很大,财产情况也不老练。于是,许多人转去做另外行业。也恰是在这个时辰,我们团队的首要成员初涉这个范畴,进来切磋所和高校读博读硕。”梁家恩就在谁人期间考入中科院主动化所模式辨认国度重点尝试室。模式辨认尝试室分为图像辨认和语音辨认两大切磋偏向,图像辨认范畴降生了汉王公司,而梁家恩则在语音辨认范畴历经5年寒窗,完成了硕博连读。
  梁家恩先容说:“我们这些人一直用心于语音辨认和语义领会的切磋。到了2010年摆布,语音辨认技艺取得了突破性进展,移动互联网也获得遍及。加之2011年10月苹果iPhone 4S公布,作为新产物一大亮点的智能语音助手Siri在市场上再次引爆语音辨认热。我们觉得贸易化的时机已经老练,2012年6月,我们创建了云知声,并搭建了用于语音辨认的公有云平台。”
  突破
  虽然如今的语音辨认照旧选取统谋略法,但这十多年来,语音辨认技艺成长很快。
  “起首是数据资源雄厚了,以前在尝试室收罗几百小我的语音都很是坚苦,如今我们有了语音云平台,吸引了各地各异口音的人们,每天采集上百GB的数据量,样本很是雄厚,这有利于剖析和改良我们的体系。如今的样本规模比李开复教员那时做的体系的样本规模扩大了几个数目级,并且如今的数据都是真正数据,远非当时模仿数据所能相比,这在统谋略法中至关严重。”梁家恩表现。
  “二是统计技艺和神经网络进修等关头技艺取得较大的突破,在情况噪声处置和对口音辨认方面的改良很是较着,辨认率显著升迁。算法上也做了一些优化,以前的算法你要做一系列尝试可能必要一两年的时间,基础没法兑现。”梁家辉说,“再有便是智能手机中CPU技艺的前进以及GPU的应用,加之后台云谋略处置才力的升迁,为智能语音辨认供给了壮大的谋略资源。”
  语音辨认现实上是搜罗。梁家恩先容说,语音辨认便是从一句话的声波中提取语音特性,然后与后台数据进行匹配,因为如今的数据库很是大,是以比对的切确度比畴昔要高得多。虽说都是搜罗,但baidu搜罗是文本检索,它要求捕捉全网信息的改变,即信息更新要快。而语音辨认上,由于语音特性与文本并异国对应关系,是以,比对切确度就成为语音辨认的焦点技艺地点。
  因为面向语音辨认这一特定应用,云知声的公有云平台与通用的云平台也有所区别。“我们底层选取的也是集群架构,单台服务器并发线程数到达100,这已是业界最快的;再议决灾备、安好等技艺来确保平台的稳健;然后是将今朝已经设立的北京、上海和广州机房的谋略资源联在一同。我们也对虚拟化做了测试,但虚拟化会带来5%~10%的本能丧失,这与我们寻求本能最高化的指标不相符。是以,我们选取高本能谋略平台,让硬件对语音辨认这一特定应用进行优化。”
  互联网头脑
  陪同着智能手机和平板电脑代替PC成为小我谋略市场的主流,人机交互也从传统的键盘操作转换为触屏操作。而在着重用户体验的移动互联网时代,智能语音辨认将带来更快更利便的用户体验,出格是在车载、可穿着式电脑等应用上。
  梁家恩以为,作为天然高效的交互体式格局,智能语音技艺不仅要辨认用户的话语,并且还要可以智能地议决屏幕或者TTS(从文本到语音)的体式格局兑现与用户交流,因而在智能移动设备、广播电视、呼叫中心、会议记载、说话进修、常识进修、互动娱乐等范畴有着辽阔的应用远景。
  “我想查一下今天晚上北京飞上海的航班。”在采访过程中梁家恩对着手机说,话音刚落,手机屏幕上革新出北京至上海的航班信息。
  这个简略的演示能够直白地反映出云知声的贸易模式。因为智能手机与机主的对应关系,加之其定位和付出功能,这句话已经蕴含了这一具有在线付出手同的潜在顾客是谁、在什么处所、具体需求是什么。这对付商家而言,客户信息已经足够了,商家甚至还能够议决手机号码来联系客户的名誉、过往的积攒风俗等,从而做出精准的营销相应。
  “我们不像如今市场有的语音辨认公司那样,议决软件授权的体式格局向用户收费。我们信任互联网的气力,全部语音用户需求汇总到后台后,所包含的贸易价值要远弘远于软件授权带来的价值。”梁家恩说,“我们允诺将公有云平台服务的体验做到极致而且永久免费,同时云知声的智能语音技艺向合作朋友完全绽放,即不限范畴、不限形态、不限贸易模式。当后台数据的贸易价值变现时,我们将与合作朋友分成。”
  梁家恩先容说,云知声今朝已经拥有1500多家合作朋友,如遐想、乐视、同方、小米等设备商,搜狗、易信、大家网、触宝等互联网公司,通用、麦特等智能车载厂商,杏树林等医疗应用软件商。除了已经将语音技艺嵌入得手机、搜罗和智能电视等合作朋友产物中外,云知声还在跟呼叫中心洽谈合作。
  技艺实力和贸易模式让成立仅1年的云知声,拿到了1亿元的A轮融资。
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1206/51761/
 与本篇相关的热门内容: