未来智讯 > 人脸语音识别论文 > 语音辨认质量最严重

语音辨认质量最严重

发布时间:2018-12-06 01:06:01 文章来源:未来智讯    
    语音辨认质量最严重作者:未知   2008年Google推出用于移动设备的语音搜罗产物。时隔大约3年后,本年6月,Google推出了桌面语音搜罗产物,把语音辨认和谋略机视觉技艺带到桌面电脑上。桌面语音搜罗是Google供给的一种新的搜罗体式格局。议决使用Google Chrome扫瞄器(今朝仅限于开辟版本),用户能够在 谷歌.com搜罗框的右侧看到一个麦克风图标,点击这一图标,然后说出搜罗央求,用户就能看到Google搜罗反馈的了局。
  Google语音搜罗切磋科学家Pedro Moreno近日告诉《中国谋略机报》记者,桌面语音搜罗功能背面的技艺和手机语音搜罗背面的技艺几近是不异的。“最大的区别在于,我们为台式机开辟了声学模子和桌面麦克风,而且将台式机的语音搜罗与Google Instant慎密集成,以使其反响更快”。
  
  语音辨认质量永久最严重
  
  Google的语音辨认技艺设立在统计模子根本之上。为了辨认口头字词,Google的体系会将输入的语音与说话统计模子对照,并试图找到最附近的匹配了局。
  “这个统计模子很是巨大,它几近涵盖了一种说话的全部基本发音,以及这种说话在表达过程中全部各异字词的组合。并且,体系还捕捉了这种说话全部的变调,好比各异的方言、发音和各异个别在声音方面的各异。” Pedro Moreno表现。
  现实上,做搜罗产物必要思虑正确性、实时性、搜罗速率这些产物特征,而语音搜罗还必要思虑语音的辨认正确性等。在这些因素中,Pedro Moreno以为,语音辨认的质量永久是最严重的因素。“当我们在某个应用步骤中的正确率提高时,人们会回过甚来再次使用它。而实际中,许多因素城市影响到语音辨认的正确率。例如,若是你站在一个嘈杂的街角,可能会有许多配景噪声,从而导致声音在转录中呈现错误。” Pedro Moreno指出。而提高辨认正确性一直是Pedro Moreno和他的同事不息寻求的。
  
  处置说话越多切磋越轻易
  
  “在我们研发出通俗话语音搜罗技艺后,我们找到Google的经管层,并建议再添加4种说话。Google经管层给出的谜底是‘不要加4种说话,而是40种,并且要在两年内完成’。”就如许,Pedro Moreno起点进行更多说话的切磋。
  在切磋中,Pedro Moreno发现每个新的说话城市带来新的挑衅:“通俗话使用的腔调,不像西方说话。此外,在通俗话中,一个字的观念是混沌的,必要帮助以字段剖析技艺。” Pedro Moreno表现,“而俄语的语调切磋起来很坚苦,德语或土耳其语等其他说话则高度黏着(他们常常将一些字词组合成新的字词或短语,议决在名词、动词等后面加上各异的词尾来兑现语法功能)。”
  各异的新挑衅让Google切磋团队得到了更多的解决方案。Pedro Moreno告诉记者,跟着处置的说话越来越多,他们的切磋也变得更为简略。例如,Pedro Moreno和他的同事从切磋通俗话语音搜罗中吸取的名贵阅历,让他们得以使用许多立异的要领来切磋其他新说话的语音搜罗。
  
  Google的大志
  
  “我们的指标是让用户随时随地可以使用语音辨认技艺,只要必要打字的处所,就能够用语言来取代。这是个雄心壮志的指标,恰是这个持久的愿景一直激发着我们。” Pedro Moreno告诉本报记者。
  基于如许的指标,语音辨认技艺不仅被应用在了移动设备语音搜罗产物以及桌面语音搜罗产物中,还被应用到了更多的Google服务中。
  例如,在Android体系中也有一些语音操作的应用,用户能够议决语音来导航、发短信。此外,用户能够在Google Voice 中转录语音邮件。Pedro Moreno暴露,他们还在试验转录一些YouTube视频上的音频内容。“这还处于低级阶段,由于视频的音质一般很不完善,存在许多问题,包罗麦克风质量差、声源距离远、声音重叠、配景嘈杂、有配景音乐等。但我们所做的试验是激昂民气的,它能够让更多的人会见到视频。”

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1206/51763/
 与本篇相关的热门内容: