未来智讯 > 人脸语音识别论文 > 中文语音识别领域的激战

中文语音识别领域的激战

发布时间:2018-11-29 01:06:05 文章来源:未来智讯    
    中文语音识别领域的激战作者: 徐坤   早前,业界普遍认为语音识别领域将会催生出巨头公司。在英语领域,作为搜索巨头的Google逐步占据了行业的主导权。而在中文领域,语音识别行业正面临新一轮的洗牌,科大讯飞、搜狗和baidu等纷纷将目光瞄准了语音识别技能。重兵布局的各方谁会成为中国语音识别领域标准的制定者,并占据行业主导权呢?
  技能为王。baidu与微软双雄鼎立
  去年10月中旬,微软人工智能与研讨部门的一个研讨者和工程师团队汇报出他们的语音识别系统实现了和专业速录员相同甚至更低的误字率(word error rate,简称WER),降到了5.9%,而一个月前这一数字还是6.3%。微软首席语音工程师黄学东表示,“我们已经达到了人类水平,这是一项历史性的成就。”
  故意思的是,baidu首席科学家吴恩达(Andrew Ng)立即在Twitter上表示祝贺,并毫不掩饰地摆出了baidu的战绩,“在2015年我们就超越了人类水平的汉语识别;很高兴看到微软在不到一年之后让英语也达到了这一步。”时隔一年,baidu和微软两大人工智能科技巨头先后分辨在汉语和英语语音识别研讨方面取得了超越人类的成果,轰动业界。
  近年来,随着数据量的丰富和计算能力的提升,语音识别行业迅速崛起。据统计,仅美国至少就有26家公司在开发语音识别技能。
  2015年之前,Nuance是当之无愧的全球语音领域老大。随着Google、微软和苹果都选择自己建立团队开发语音业务,在此之后,Nuance的市场份额节节下跌,2014年还高达60%的市场份额,一年过去只剩下31.1%。相比之下,Google语音识别的市场份额增长明显,逐步占据了英语领域的主导权。
  只管Google、微软和苹果这些巨头在语音识别技能上的技能积累和先发优势让后来者似乎难望其项背,但因为一些政策和市场方面的原因,这些巨头的语音识别主要偏向于英语,这给中国互联网企业在中文领域崛起提供了机会,baidu便是其中的佼佼者。baidu收集了大量中文(尤其是普通话)的音频数据,这给其Deep Speech 2技能成果提供了基本的数据优势。
  真相上,在当前的发展脉络下,语音识别的正确率和通用性的性子就在于三个方面:数据量的几多、算法的优劣和计算能力的水平。在这三个方面的比拼中,互联网巨头拥有很大的优势,因为它们拥有最多的数据,最顶级的人才以及最强大的计算能力水平。所以当Google开放语音识别API后,在英语语音识别的市场中,Google比Nuance有更大的优势。而在中文市场中,baidu也扮演着和Google在英语市场相似的角色,甚至更为出色。
  2015年12月,在Deep Speech 2首次发布时,吴恩达称其识别精度已经超越了Google Speech API、wit.ai、微软的Bing Speech以及苹果的Dictation至少10个百分点。2016年2月,baidu表示Deep Speech 2的短语识别误字率已经降到了3.7%。
  群雄逐鹿,中文领域的生死战
  毫无疑问,微软和baidu的语音识别技能水平都很惊人,但一项技能终究要形成产品和服务才能实现价值,所以在英语语音识别市场占据主导地位的是Google而非微软。在中文语音识别市场,这方面做得最好的公司莫过于科大讯飞。
  Google是最早在全球范围内大规模使用深度神经网络的公司,而科大讯飞是中国第一个在商用系统里使用深度神经网络的公司。2010年,科大讯飞率先将语音输入功能引入到了手机当中,截至2016年6月,《讯飞输入法》已经拥有3.6亿用户,活跃用户更是超过1亿人,其中,语音用户渗透率高达59%。在国内语音行业,科大讯飞已是不折不扣的龙头企业。而未几之前,《讯飞输入法》还因在锤子手机发布会上的惊艳表现备受关注。
  在2016年10月18日晚上的锤子手机发布会上,罗永浩现场展示了科大讯飞97%准确率的语音输入。一夜之间,科大讯飞几近成了所有科技媒体人所讨论的话题和关注的焦点。其实,除了锤子手机的Smartisan OS之外,华为、小米和魅族等厂商的语音服务或者输入法都在使用或曾经使用过科大讯飞的技能。据悉,在未来的三年中,科技巨头英特尔也将与科大讯飞合作,一同研讨机器学习和深度学习项目。
  除了科大讯飞,国内在语音识别领域有所建树的大公司还有不少。在2016年4月中旬举行的“云栖大会南京峰会”上,阿里云总裁胡晓明率先进行演讲,阿里云的“小Ai”机器人全程对胡晓明的语音进行了实时翻译文字,这也是阿里巴巴第一次对外公布阿里云人工智能的能力。其实,这并非“小Ai”首次展示自己的速记能力。在阿里云2016年年会上,“小Ai”曾打败了世界中文速记大赛亚军。阿里云人工智能技能专家陈一宁透露,“在阿里云大数据平台数加上,智能语音交互产品便是选取的“小Ai”的技能。目前,阿里云还在探讨同各类直播平台的合作,以后所有的直播都能具备实时加字幕功能。
  除了阿里云,搜狗也是国内语音识别领域不容忽略的一方诸侯。在去年11月中旬举行的第三届世界互联网大会上,搜狗CEO王小川首秀搜狗“黑科技”――机器同传,展示了实时机器翻译技能,将演讲嘉宾的中文讲话实时语音识别并同步翻译为英文上屏显示,引起轰动。这是全球首次基于神经网络的实时机器翻译技能在大型活动上的展示,效果可靠、正确率已接近人类同传翻译结果。而在近期人工评测中,搜狗机器翻译在演讲、旅游、闲聊和日常口语等领域,选取5分制人工评分能达到4.4分,走向实用化。目前,搜狗语音识别正确率已超过97%,识别速度达到了400字每分钟。   除了科大讯飞、阿里云和搜狗等互联网大佬,国内还有不少专注自然语言处理技能的创业公司,如云知声和思必驰等。云知声CEO黄伟表示,云知声的识别正确率已经能达到97%,属于业内一流水平。相比之下,思必驰做的是语音对话交互技能的总体解决方案,而不是单纯的语音识别解决方案。因此在场景应用中,思必驰的系统和科大讯飞的系统多有对照,可相互媲美。
  毫无疑问,面对拥有领先优势的科大讯飞,以及阿里云和搜狗等实力雄厚的互联网大佬,还有云知声和思必驰这类不容小觑的创业公司,baidu虽然拥有做人的技能和财力,但想在中文语音识别领域独霸江湖仍有不小的难度。未来难测,深挖场景是必经路
  未来5年,语音市场将显著增长,到2020年,全球语音市场规模预计将达到191.7亿美元。语音识别之所以潜力巨大,很大程度上源于它是最便捷的人机交互方式,也是人工智能的重要入口。近年来,国内外互联网巨头们都在发力人工智能,虽然各自的侧重点不同,但都极为倚靠语音识别技能。毕竟,语音输入本身不过一个途径,它最后仍然要和实际操作相联合。
  语音识别技能要在现实生活中落地,必须与场景联合,这需要吸纳来自各种场景的数据去训练语音技能,让其更加智能化。这也是为什么“微软小冰”每周都要上线新功能,努力刺激用户贡献更多聊天数据,而科大讯飞则不时扩大包括长虹等智能电视在内的合作名单,吸纳来自入口级硬件的数据。数据显示,与讯飞人工智能连接的应用,日均访问量为30亿次。
  与科大讯飞相比,baidu在海量用户数据和人工智能技能上的优势,能让他们迅速发展出优秀的语音智能。从这个角度来说,baidu的发展道路比科大讯飞更宽。在baidu生态内部,目前语音技能的落地渗透在《baidu地图》、《手机baidu》和《baidu输入法》等产品中。而在外部,截至2016年年中,使用baidu语音技能的APP数量超过8万款,大型合作厂商包括中兴、魅族和遐想等。baidu语音现在能获取的数据规模相当庞大,据吴恩达透露,在线识别请求量2016年每天达到1.4亿次,在线语音合成请求量则达到2亿次。
  除依靠产品收集用户数据之外,各大厂商还在积极与数据资源商合作,以更快捷地获得庞大的数据支撑。随着这些数据的输入,每分每秒,人工智能的模型会迅速迭代和升级,就像Google的AlphaGo在每一场棋局的每一步对决中都在学习。
  作为底层技能,语音识别未来的发挥空间极大,将广泛出如今手机、智能家居、医疗、教育和司法等各种场景。当然,这还有很长的一段路要走,想要在这条路上脱颖而出的公司,―方面要面对同行的生死竞争,另―方面还需努力解决语音识别技能仍然存在的一些瓶颈。
  小编观点
  目前,国内语音识别领域仍然是群雄混战的场合,短期来说,科大讯飞仍有着明显领先优势。但是,随着人工智能的进步,语音识别技能逐步往大规模家当化发展时,公司的技能生态会相当重要,baidu这类互联网巨头将迎来快速发展期。在核心技能和能力的比拼下,语音识别也将进入巨头崛起,传统语音公司稍显没落的时代。
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1129/48675/
 与本篇相关的热门内容: