未来智讯 > 人脸语音识别论文 > 为何语音识别技能最后会走入办公室

为何语音识别技能最后会走入办公室

发布时间:2018-11-27 01:06:05 文章来源:未来智讯    
    为何语音识别技能最后会走入办公室作者: 本刊编辑部   早上上班后你走到办公桌旁,在电脑跟前坐下。你起初娴熟地敲键盘、点鼠标,而不是向电脑发出语音下令、口述电子邮件或者发给老板的备忘录。在办公室环境,语音技能原本有望为我们节省时间、提高事务效率,可大多数人还是仍在使用键盘和鼠标。
  只是一旦我们离开了办公室,许多人不假思考地向智能手机发出语音下令,无论这意味着语音拨号手机、向google报出搜索词语,还是问询Siri本日天气如何。
  市场调研机构Opus Research的高级分析师兼创始人丹?米勒(Dan Miller)表示,提供语音技能的公司已加入巨资,研发“个人数字助理”观念,比如苹果的Siri以及出如今许多google手机上的google语音操作(Google Voice Actions),它们懂自然语言下令。他表示,实际上近来在语音识别技能方面的突破大多出如今移动设备端的基于云计算的自然语言搜索领域。
  主要进展便是,语音工具如今离用户更近了――出如今我们日常使用的手机和平板电脑上,许多工具在云端使用,这提供了立即处理功能和不时扩展的语言数据库。不像老式的桌面端软件,这些新工具不需要语音训练,这归功于算法方面取得的进步。
  当然,今天的语音识别技能并非尽善尽美。即使在移动设备上,语音识别软件也并不适用于每个人。而有些自然语言句子仍然让智能化程度最高的语音抑制系统都犯难,比如“告诉我的老板我开会要迟到”。Nuance、微软和苹果等公司已建立了庞大的语言数据库,供自己的语音识别产品使用。但即使在今天,这类软件偶尔还很难懂得牛肉制品“汉堡包”(hamburger)与德国城市“汉堡”(Hamburg)之间的区别。
  米勒说,我们需要在云端运行更高程度的人工智能。他说:“我们离指标越来越近。各个层面都面临挑战,但正在取得进展――只是可能永远不会尽善尽美。”
  可是,虽然越来越好的结果正在促使移动设备选取语音识别技能,但这项技能在事务场所还没有产生太大的影响:步入美国的随便一个企业园区,很难看到有员工在下达语音下令。我们将探讨什么因素在妨碍语音识别技能,并介绍这项技能在办公桌前和办公室都有望造福员工的几个方面。
  事务站前的语音
  对于视力欠佳的用户或患有反复性劳损(如腕管综合症)的那些人来说,通过语音抑制电脑大故意义,可用于浏览及操控界面和应用程序、进行搜索以及口述内容很长的电子邮件和事务文档。其他用户也能从中受益,尤其是打字很慢的人、移动用户以及想记录会议纪要的与会人士。
  米勒表示,该技能如今就出如今世人面前。基本的语音抑制功能多年前就内置到Mac OS X和Windows中。今年夏天,苹果将为其OS X美洲狮版本添加语音到文本口述功能。去年,google往台式机和笔记本电脑上的Chrome浏览器引入了首先出如今移动设备上的语音倡议的搜索这一功能。
  至于更高级的口述和个人电脑抑制功能,专用的语音识别软件(如Nuance公司的Dragon NaturallySpeaking)这些年来逐渐改进。在美国某杂志的测评人员拉蒙特?伍德(Lamont Wood)进行的测试中,最新版的NaturallySpeaking Premium从语音到文本的转换正确率超过99%。
  伍德表示,对他来说,通过语音写东西的速度大约2倍于通过打字写东西。其他用户获得的效果有所不同,这取决于他们的打字速度以及使用语音软件的熟练程度。他还指出,使用最新的降噪耳机意味着这种软件不会受到背景声音的困扰,在过去这通常是个问题。
  那么,为什么没有更多的人通过语音与电脑进行交互呢?米勒说,人们往往很怕难为情。在办公室环境,不是每个人都习惯于脱口说出自己的想法和言语,要是惟有少数人在这么做,更是如此。
  只是,他认为移动设备语音搜索有助于让语音技能整体上更受欢迎。他表示,近来的一项调查显示,11%的调查对象称自己习惯于将Siri用于语音搜索。目前这个比率并不高,然而随着越来越多的人选取,而且越来越习惯,在办公室使用语音应用软件对许多人来说似乎更加切实可行。这将遵循整体趋势:人们先在家里或私下使用技能,然后希望在事务场所也能使用。
  此外,研发人员在探究语音的新用途,尤其是在游戏和娱乐领域(比如在Xbox上起初播放电影)。语音下令在各个局面似乎都很自然,这不过个时间问题。米勒说:“人们很快会发现,同样能够通过语音抑制CAD软件、个人电脑及其他个人设备和办公工具。”
  值得关注的是,语音硬件在办公室已经很普遍。任何一台新购的办公笔记本电脑都已经内置了视频会议功能,带网络摄像头和高品质麦克风。当你步入许多公司的会议室,会看到带高级麦克风的免提电话。新机型甚至会对准讲话的那个人,降低背景噪声。
  J. Markowitz咨询公司的著名语音技能专家朱迪思?马科维茨(Judith Markowitz)也认为,硬件不是妨碍语音技能在办公室流行起来的因素。他表示,问题在于让自然语言下令得到更广泛的应用。而自然语言下令不过另一种交互方式,就像我们敲打的键盘或点击的图标那样。
  她说:“语音无法查明是否存在过热问题,也无法提醒你有约会。那是后端系统或应用软件的任务。Siri的语音识别局部也没有这种功能。自然语言理解能力、人工智能和应用程序的功能共同造就了Siri这款出色的个人助理。语音技能把语音输入转换成Siri的后端及其他iPhone应用软件能使用的一种形式。”
  马科维茨表示,如果开发人员决定为企业应用软件添加语音下令和声音提醒,语音在办公室就派得上用场。米勒赞同这个观点,只是他指出,这有点像先有鸡还是先有蛋的情况。开发人员将语音功能添加到应用软件之前,希望知道企业环境的用户习惯使用的语音(而且不会阻碍同事),然而惟有这些功能广泛出现,用户才有可能习惯使用它们。
  米勒表示,想让语言更被办公室环境的用户所熟悉,一个大略的方法便是为企业应用软件添加语音提醒。比如说,应用软件可能告诉你数据中心存在一个问题,而不是显示文本提醒信息。用户能够根据需要,将提醒由语音方式改为文本方式。   当然,两位专家都一致认为,语言并不是在每种计算环境下都是最合适的输入方法。它给艺术家、摄影师、视频编辑和程序员带来的帮助不像给普通的办公室员工、管理人员和IT人员带来的帮助一样大。Photoshop中精细的像素级编辑可能根本无法得益于语音输入,只是人工智能可能会发展到这个程度:我们说“修复照片的左下角1/4局部”,Photoshop就会进行相应的操作。
  办公室周围的语音
  Nuance公司总经理彼得?马奥尼(Peter Mahoney)认为,遍地开花的云计算将有助于推动语音技能,从电脑扩大到事务场所的其他地方。比如设想一下:可以使用内嵌式麦克风在会议室口述电子邮件,或者坐在大厅等待时查阅日程表,哪怕你把移动设备落在办公桌上。
  他表示,这一幕要成为现实,语音系统就要连接到其他办公室系统。比如说,语音系统可能连接到公司的联系人和日历系统,知道你的会议日程表(及其他与会者的日程表)。它还可能连接到建筑物的平安和网络管理系统,那样它能告诉你是否在办公室、登录到办公电脑上。
  互连系统能够在白天收集关于你的数据,而且正如人的大脑保留短期记忆那样,它会确定你的具体背景。这可能意味着,语音系统知道你晨会要迟到,因为你没有登录到电脑上;它能够查阅你的会议日程表,找到相应的一个或多个联系人,告知你会迟到。
  马奥尼表示,现在这些信息往往是孤立的。但他预测,在今后一两年,语音技能会逐步变得有更强的互连性。“它可能会先联系日历程序,知道你要会见约翰,然后日历程序会通过语音联络联系人数据库。”
  米勒表示,许多公司已经在现有的系统中拥有关于联系人和角色的信息,比如活动目录列表和人力资源数据;许多公司还有内部建筑图。那么,到底是什么因素在妨碍这一切呢?
  马奥尼表示,自然语言下令正在改进,但系统不是足够清楚地了解信息的上下文。他说:“需要构建数据模型,找到人们可能会问的前100个问题,然后找到合适的信息源,以了解那些问题,比如地图应用软件。”毕竟,这与Siri等虚拟助理在移动设备长进行的操作没什么太大的不同:查询不同的信息源(基于云和本地),找到相关信息,发送提醒信息,等等。
  马奥尼设想,随着互连系统在将来扩大语音技能的应用范围,它们还有望改进语音软件的正确性和理解能力。借助无处不在的云连接,语音系统能够根据你所在的位置、所做的事情、身边的人以及接下来要做的事,了解你想表达的意思。“即使你没有明说,系统也知道你想表达的意思。”
  链接:语音应用软件如何知道你说的是什么?
  Opus Research公司的丹?米勒表示,今天的语音识别系统使用统计语言建模,这性子上是一种最佳猜测,联合你整个句子的上下文,猜测想要说的意思。比如说,今天的系统借助前后单词,知道你想说的是“you’re”(你是),而不是“your”(你的)。
  要是说话者口音重,或者选取罕见的方言,这些系统还是经常无能为力。为了了解这些人说的话,语言系统必须建立一个发音库、去除任何背景噪音,并不时拿所说的单词与已准确识别的那些单词进行比对。
  据语音技能咨询公司NewSpeech的总裁比尔?肖尔茨(Bill Scholz)博士声称,方言和重口音的主要问题是,语音程序并不分析声音模型以寻找语音方面的变化。他表示,典型的语音合成器可能有几百万个声音样本,但这还是不足以应对各种方言、不常用的俚语或含糊的话。只是,随着系统不时积累更多的语音数据,模型会日趋改善。
  肖尔茨补充说,语音算法也需要改进,以排除干扰,比如你在说话时的咳嗽声。他表示,语音技能公司应对识别的一个办法便是,更正确地识别某人何时起初说话、何时说完。
  沈建苗编译
转载请注明来源。原文地址:https://www.7428.cn/page/2018/1127/47722/
 与本篇相关的热门内容: