未来智讯 > 人脸语音识别论文 > Alexa语音识别交互开启万物互联新生态

Alexa语音识别交互开启万物互联新生态

发布时间:2018-11-26 01:06:05 文章来源:未来智讯    
    Alexa语音识别交互开启万物互联新生态作者: 李雨蒙   2017年美国消费性电子展(CES)落下帷幕,而此次展会的最大赢家非亚马逊(Amazon)莫属。其推出的智能语音系统Alexa几近可以联通所有与物联网相关的一切产品,为我们展示了智能生活的全新生态景象。未来消费者只需开口发出指令,无论您在哪里,都能够通过语音交互系统轻松抑制每一台关联的电子物件,开启万物互联的智能化生活。
  2016年,科技界最为颠覆性的热门事件,一定是googleAlphago战胜韩国围棋九段棋手李世石。人工智能(AI)通过深度学习(DeepLearning)技能破解了最陈旧而神秘的围棋,人们在震惊于AI学习能力的同时,也起初担忧AI逐步具备人类所独有的能力。据统计,在主流平台上,AI深度学习的能力使得语音交互准确率超过90%;而目前美国移动语音助手使用比率已达到,google语音搜索量较2008年相比增长35倍。
  Alexa生态系统
  不同于苹果Siri有限的语音辅助作用,亚马逊Alexa是一个具备强大语音技能的机器人,对于语音识别、语义分析等方面的技能要求相当严格。Alexa中集成了增强机器学习等人工智能技能基于语音的应用。作为Alexa的载体,Echo智能音箱从首先播放Prime音乐、设置闹铃等基础任务,升级到起初对家中的灯、空调、摄像头等电器设备的抑制。
  自2015年下半年起初,第三方硬件厂商意识到Alexa在智能家居领域的重大发展潜力,陆续有家电厂商起初与亚马逊合作,试图在自家产品中内置Alexa。在2017年CES上,Alexa出如今各大厂商的产品发布会上,涵盖的产品类型包括冰箱、吸尘器、DVR、手势遥控器、灯泡、车载系统等,它们都内置了Alexa语音助手以及可与Alexa赖以交互的音频I/O模块。也便是说,Alexa起初成为多种智能家居产品的内置智能助手。
  比如,LG公司推出最新智能冰箱,内置Alexa语音识别系统,在联网和设置之后,用户能够通过LG智能冰箱内置的Alexa来查看菜谱、查看冰箱内食物的过期时间,自动选择缺少的食物,并直接完成在线购物。
  除此之外,福特在今年的CES展会上推出了一个以Alexa为技能支撑的车载信息娱乐系统SYNC 3 in fotainment;通过这个系统,Alexa把汽车和房子紧密地联合在一同。以具体的使用场景为例:通过这一系统,用户在家里能够用语音在指定的时间点发动汽车;而当用户在开车过程中,能够通过车载的音响系统继续用语音指令来唤醒Alexa,比如说查询路线和目的地、问询天气、购买东西、播放音乐
  和有声书等;用户甚至能够在车里通过Alexa来抑制家中的灯、车库门等等。这样一来,Alexa的语音交互方式就在驾驶过程中发挥出最大的优势;而且,汽车与家庭之间也实现了有效的联动。
  深度学习加快语音识别
  著名“互联网女皇”玛丽・米克尔在《2016年互联网趋势汇报》中,特别提出语音交互科技的时代已经到来。她认为,语音正在被重塑,成为人机交互的新范式,不但语音搜索正在成为搜索的重要分支,在各种垂直领域的应用也在日益增多。中外各大科技巨头早已纷纷布局语音互联,不惜重金挖掘各路人才,争先占领最大市场优势。
  baidu2016年世界大会上,李彦宏推出“baidu大脑”,他认为人工智能是移动互联网的下一幕,而baidu大脑恰是baidu的核心人工智能。目前,baidu大脑主要包含三个方面,即算法、计算能力以及大数据等,并从四个能力展开应用,包括:自然语言的处理、语音识别、图像识别处理以及用户画像等能力。2014年,baidu公司宣布国际著名人工智能科学家吴恩达的投入,成为baidu首席科学家,主要负责的恰是baidu大脑项目的领导事务,吴恩达投入baidu引起了国际人工智能界的巨大震动。2016年《MIT科技批评》杂志,把baidu的语音识别引擎第二代Deep Speech 2评为“2016改变世界十大突破技能”,这个引擎大概能够做到97%的正确率,这样的正确率偶尔甚至超过了人。
  大会上,李彦宏演示了语音识别的其中一个应用场景:电话销售。销售人员需要长时间培训才能上岗。然而通过baidu语音识别能力,一个新的销售上岗的第一天,就可能掌握他所获得的那些最优秀的销售的能力:新销售打电话给潜在客户的时候,baidu大脑都实时地识别了客户的问题,并且显示在销售的电脑的屏幕上,同时实时地统计出最优秀的销售记录。
  搜狗“知音”
  未几前,搜狗语音发布了不但“能听会说”,还具有“能理解会思索”的智能语音交互引擎技能“知音”。“知音”解决了用户在说话过程中因语速过快而导致的吞音问题,语音识别错误率相对降落30%以上。2016年8月搜狗知音引擎基于已有的深度学习平台和技能搭建了自身的语音实时翻译技能。整个技能框架包括了语音识别、机器翻译两个大的方向,整个系统并不是大略的技能堆砌,而需要做相当多的细节优化以及系统调优,主要包括了语音断句、语音识别、文本断句以及机器翻译。
  对于和google未几前发布的神经机器翻译技能,搜狗和google使用的模型区别不大,但google的神经网络对照深,做到了8层,而搜狗最多做到5层。google神经机器翻译推出后,宣布将加入到相当困难的汉语-英语语言对的翻译生产中。微软也发布了万能翻译器,支持语音识别、拍照识别、直接输入翻译功能。
  2015年11月,图灵机器人针对服务机器人市场,推出了全球首个人工智能级的操作系统――Turing OS。Turing OS是一款可模拟人类情感和思想模式的智能机器人操作系统,具备最接近人类的多模态人机交互能力,包括情感计算、思想强化和自学习三大引擎。TuringOS内置小孩对话功能,提供强力内容过滤机制,语言“纯净度”达99.87%。
  在即将进入的物联网时代中,语音交互被视作为人机交互的入口。当各种恶意机器人消灭人类的理论出现时,人类不妨培养如AI一般的深度学习(DeepLearning)能力,考虑在职业被AI取代后,我们该如何学习寻找新型职业,而不是考虑如何拔掉AI的插头。正如baidu首席科学家吴恩达说的那样:“技能的变革越来越快,更加需要重新训练人。我相当顾虑,没办法准时训练需要的人”。
  编译自《商业内幕》《MIT科技批评》杂志
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1126/47259/
 与本篇相关的热门内容: