未来智讯 > 人脸语音识别论文 > 人机交互的革命语音智能识别

人机交互的革命语音智能识别

发布时间:2018-11-29 01:06:05 文章来源:未来智讯    
    人机交互的革命: 语音智能识别作者:未知   随着计算机、“互联网+”、大数据应用、人工智能等技能在生活与事务中的深度运用,人类越来越迫切地冀望以“操作指令与机器执行相互配合”的模式替代传统的机械性劳动,通过人机交互的智能方式进一步促进事务效率的显著提升。因此,近年来,作为理想的人机交互方式之一的“语音识别技能”,正在履历着提速发展的黄金时期。其事务原理是通过捕捉声波的方式,将声波予以数字化,转换成基本语言单位或者音素,再根据音位、语境等要素构建词语,转变为相应的文本或者下令,从而保持与机器听到的词语的一致性,最大限度地降低人力成本,大幅提升应用领域的事务效能。 语音识别
  “语音识别”又称为“自动语音识别”,其最基本的功能是将说话人的语音中的词汇内容转换成计算机可读的方式输入(比如:二进制编码、字符序列)。一般而言,“语音识别”的应用涵盖了语音拨号、听写数据录入、语音导航、室内设备抑制、语音文档检索等方面。通过与其他自然语言处理技能(比如:机器翻译、语音合成)相联合,“语音识别”还能够构造出更加复杂的应用(譬如:由中文到英文的翻译)。
  要追溯语音识别的发展史,就要从“贝尔研讨所”(又称为:Bell实验室)说起。1952年,贝尔研讨所的Davis等人经多番研讨,成功地建立了世界上第一个“语音识别系统”。该系统可以识别9个英文数字的发音,标志着人类探索语音识别技能的大门正式打开。进入20世纪60年代,计算机的应用推动了语音识别的发展。科学家们运用动态规划、线性预测等分析技能,力求从标准模板匹配的视角进行突破,从而破解大范围捕捉声波的难题,即“语音信号产生模型的问题”。时间的年轮来到20世纪80年代,“隐马尔可夫模型”(简称“HMM”)和“人工神经网络”(简称“ANN”)两大理论代替标准模板匹配技能在语音识别领域被广泛应用,加速了语音识别模型的发展。之后,随着多媒体时代的到来,语言识别系统逐步从“实验室”走向“实用”,从“研讨”走向“产品”。日本、美国等技能领先国家亦在这个时期,起初将“语音识别技能”应用至具体的产品研发领域,推出了噪声下的语音识别和会话(口语)识别系统、高级人机口语接口和自动电话翻译系统等智能化产品,在语音识别技能的应用及产品化方面跨出了重大的一步,正式开启了语音识别“产品化”的进程。 语音智能识别
  根据人民日报海外版的报道,“语音的交互界面正在成为新的主流,全球的语音家当的智能化已经步入应用的高速增长期。据预测,2017年全球智能语音家当规模或将超过110亿美元,到2020年则将达到200亿美元”。在语音产品智能化的大势所趋下,对语音识别的要求亦在不时地提高。当前,语音识别不但局限于“语音采集识别”“信息实时录入”等传统功能,更将触角延伸至“语音及文字的相互翻译”“人机智能交互”等深度功能。不仅尝试将语音转写为文字,更探索识别或者确认发出语音的说话人,并根据说话人的指令进行下一步的操作。这恰是“语音识别”智能化的最大亮点。
  只管语音智能识别在我国的科研推广起步较晚,但是信息化、数字化、智能化(又称为:三化)在我国的家当发展中越来越得到研发企业、政府机构、消费市场的青睐。据工信部赛迪研讨院数据显示,“2016年我国人工智能企业已经达到709家,总量高居全球第二,位列美国之后”。乘着这股“东风”,语音智能识别近年来在华夏大地得到了迅猛的发展,尤其是从“实验室系统”到“市场化商品”的演变。自2013年第一届中国电子信息博览会举办至今,我国的智能语音技能在信息通讯、司法、刑事侦查、医疗、金融、家用电器等领域的新产品、新应用已初露端倪―― 信息通讯服务:语音搜索
  在移动互联网领域,越来越多的产品亦投入了语音智能识别技能。目前,安卓手机的语音智能识别大多选取了科大讯飞的系统。科大讯飞与中国移动共同推出的语音门户产品“灵犀”,更是具备离线语音识别、识别速度优化等深度功能,用户人数逾百万。又比如:滴滴打车软件采取了地图系统与语音智能识别联合的系统,一经面世便获得了消费者的广泛关注与欢迎。baidu力推的搜索界面和导航犬亦引入了语音识别功能,为用户提供了更人性化的服务体验。再比如:在手机上被广泛使用的各类输入法软件。以“讯飞语音输入法”为例。讯飞语音输入法已经能够实时将说话者的普通话语音直接转化为汉字输入,实现了高精准的识别录入。 刑事侦查应用:警务智能语音服务平台
  目前,公安部已经成立了“智能语音实验室”,着力研讨语音侦控应用系统、声纹识别系统、语音转写系统,致力于智能语音技能在公安机关的研讨和应用,将科研成果转化为核心战斗力。地方层面,宁夏、山东、上海、南京、浙江、吉林等地已经开启了警务智能语音应用的先行先试。以“宁夏银川市公安局执法办案区智能化管理系统”为例。银川市公安局联合属地执法办案的实际情况及现实需求,结合天津天地伟业数码科技有限公司和宁夏天佑信息科技有限公司进行深入研发,在办案中心和案件管理中心推出了执法办案区智能化管理系统。该系统引入了人员定位、智能合成录像、智能报警等科技应用。其中,包含了警务智能语音服务平台。平台的基础功能是为民警在办案区讯问室��讯犯罪嫌疑人提供语音内容的快速转写服务,普通话识别率达到95%以上。又比如:浙江省金华市公安局提出建立“智能语音云平台”。平台集成声纹自动识别、语音自动转换文字、在线翻译等功能,建成全局语音应用的统一接口,并探索建设覆盖全警的智能语音助手。交互通过语音、说话能即时转成文字并传送至后台,需要调取的信息也能够语音的方式反馈,民警不用再填写台账,也不用手工输入信息,变成感知和研判环节的语音技能设备基本替代人力。 司法领域应用:语音智能识别系统
  以往,人民法院的书记员需全程记录庭审的过程。为配合书记员的录入,诉讼参与人发言时通常要刻意减速语速,且庭审后需耗费大量时间核对笔录。但是,近年来人民法院受理的案件数量逐年攀升,且法院的事务人员却流失严重,因此“案多人少”是当下法院面临的主要矛盾。在这样的背景下,通过技能手段提高庭审笔录制作的效率成为了法院系统的不二选择。其中,语音智能识别已成为法院审理案件的重要抓手。   以浙江省高级人民法院为例。只管浙江省高级人民法院于2014年8月探索以“庭审录音录像”取代“传统书面笔录”,庭审节奏变得更加紧凑,然而此种尝试仍然存在弊端,例如法官不易直接采集笔录内容,制作裁判文书;当事人若要上诉或者申请再审,书记员需要重新誊录笔录,更加费时。为此,浙江省高级人民法院于2016年3月正式启动“语音智能识别系统”的研发事务,同年5月在杭州西湖法院等局部基层法院进行试点运行,同年8月底在全省105家法院全面铺开推广应用。据《法制日报》介绍,浙江省高级人民法院的“语音智能识别系统”具备语音自主学习能力,能够自动学习历史案件数据,联合不同法院和诉讼参与人的语音资料进行有针对性的学习。即便带有一定口音的普通话,系统经过重复学习和模型训练,识别率亦可持续提高。同时,法官还能够提前导入案件起诉状等内容,让系统提前“学习”,从而提升当事人姓名、案件特定关键词的识别率。该系统能够用于庭审、调解、合议、听证、审判委员会讨论等各类办案环节,用途更包括语音转写、高频词分析、内容检索、争议焦点总结、法官庭审习惯分析、当事人画像、案件预判、知识挖掘等诸多方面。据统计,该系统的总体识别正确率能够达到95%以上,既�p轻法官、书记员制作笔录的负担,又令审理过程更加顺畅。
  值得关注的是,全国各地法院正在借鉴浙江先进经验的做法。比如:海南省高级人民法院于2017年7月与科大讯飞签署战略合作协议,将语音智能识别技能引入海南法院庭审,实如今庭审过程中对法官、原告、被告、犯罪嫌疑人、证人等各方的语音内容自动实时识别成文字。 医疗事业应用:医疗语音识别系统
  在欧美国家,“语音识别”已经在医疗领域使用了近十年,主要用于节约医生电子文本录入的时间,降低文本录入事务难度,令医生将更多时间和精力用在与患者及家属沟通交流、为更多患者诊断等事情上。以“美国Nuance公司的英文语音识别技能及电脑辅助病历抄写系统”为例。医生可使用掌上移动型设备将病患看诊状况口述下来,存成语音档案,直接传送至语音识别服务器。此系统可在5分钟内完成转录10小时的语音,极大地缩短音频文件转录文本的时间。据统计,美国临床中使用语音识别录入的应用比率已达10%至20%,有效地抑制电子文本记录及诊断汇报生成时间和质量。
  我国亦在效仿此种先进做法。北京协和医院在国内最初提出使用语音识别技能录入医疗领域电子文本。之后,北京协和医院通过定制医疗领域语言模型、个性化语言模型、部署语音云支持多渠道多终端等方式,探索建立了“医疗语音识别系统”。目前,该系统在协和医院病房、医技科室、手术休息室已经上线使用,尤其对长段信息、自由医嘱录入的成效明显。据统计,超过50%的医生认为语音识别技能每天可节约一小时左右的时间。超过90%的医生希望使用语音录入方式。 金融服务应用:自动语音应答系统
  在金融服务的语音智能识别方面,德国无疑走在了家当的前端。德意志银行于2002年就开发了“语音识别电话”,于2009年更选取Nuance的自助语音导航对上述系统进行全面升级。升级后的系统能够准确地指引客户通过语音发出的请求,正确定位客户的交易需求,帮助其寻找到实现交易需求的途径。在英国,巴克莱银行在私人银行分部Wealth推出了“语音智能识别身份鉴定功能”,亦选取Nuance为其提供技能支持。该系统通过对照呼入客户的声音与储存在语音库中的声音,以此来验证客户身份。若验证成功,客户将能够实现自己的交易需求;若验证失败,系统将启用其他的平安认证方式对客户的身份进行进一步的核实、确认。
  我国在21世纪起初初探语音智能识别在银行服务层面的产品应用。比如:工商银行于2012年推出了“贵宾服务专线”,并在大连等地加入运营。该专线运用了自动语音应答系统,能对语音进行自动识别和智能判断,并正确定位到客户需要办理的业务。客户无需层层收听电话语音提示,亦不用根据提示层层选择需要办理的业务,只需说出“查余额”“转账”“定期存款”“利率查询”等欲办理的业务名称,即可快速定位进入需要办理的相应业务。据测算,使用自动语音应答系统后,之前用户需按键交互5-8次的业务,如今只需语音交互2-3次即可,平均交互次数较之前大幅缩短。这项技能不但令客户使用大略的语音办理各项业务,提升客户如意度,而且优化电话银行流程,提高用户呼入成功率,降低运营成本。 家用电器配置:语音操控洗衣机
  随着互联网与智能语音操控相联合的实践应用,传统家电厂商的转型升级已经成为必然的趋势,智能空调、智能电视、智能冰箱均陆续上线。以“格兰仕的G+滴滴”为例。该款产品系一款主打语音交互的智能洗衣机。相较于传统的洗衣机,其最大的不同之处在于搭载了“格兰仕G+智慧平台”,为用户提供了语音操控及手机APP远程遥控的叠加功能,并融合了BroadLink DNA system、科大讯飞等一流语音软件技能的资源,能够“听懂”各类方言。在连接无线网络后,用户能够凭借配套的手机APP远程遥控系统,随时随地抑制洗衣机的基本操作。尤其对于老人、孩子来讲,仅通过语音就能够大略的对洗衣机进行操控,大大简化了洗衣机的操控难度。
  正如baidu创始人、董事长兼首席执行官李彦宏给出的答案,“语音智能识别已经不但局限于将客户需要的信息呈现出来,还会将一些连锁信息进行反馈,并自动生成给客户一套全面的服务。基于这种智能化的技能进化,语音智能识别必将成为日后移动互联网的入口之一”。随着语音技能的逐渐成熟,“语音智能识别”在未几的未来必将应用到社会生活的方方面面,更加贴近我们的日常,其家当链覆盖将更加完备。比如:2017年12月初,上海申通地铁集团与阿里巴巴和蚂蚁金服集团举行战略合作意向书签署仪式,成功达成战略合作,将引入多模态智能语音交互技能,在未来实现乘客凭借自身语音在绑定支付宝账户后轻松进出车站的愿景。或许,全领域的语音智能识别时代即将到来!
  编辑:黄灵 yeshzhwu@foxmail.com
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1129/48677/
 与本篇相关的热门内容: