未来智讯 > 人脸语音识别论文 > 语音识别实现多媒体检索的系统设计

语音识别实现多媒体检索的系统设计

发布时间:2018-11-27 01:06:05 文章来源:未来智讯    
    语音识别实现多媒体检索的系统设计作者:未知   摘 要:设计并实现利用语音识别对多媒体信息检索的系统。该系统综合运用分类法、主题法和基于内容的多媒体检索方法,并嵌入语音识别技能,以达到综合运用多媒体低级内容特征和高级语义特征来提高检索本能的目的,同时使得人机交互更为便利。
  关键词:语音识别 多媒体 检索
  中图分类号:TP18 文献标识码:A 文章编号:1007-9416(2010)09-0018-02
  
  A Design of Multimedia information Retrieval System based-on Speech Recognition
  
  Liu Jinghua
  (College of Information Science & Engineering,Huaqiao University,XiaMen,361021)
  
  Abstract:This paper designs and puts forward a system which maks multimedia information retrieval based-on speech recognition.This system is a combination of different method,an integration of classification,subject and content based multimedia retrieval techniques.With the embedded speech recognition technique,integrated usage of low-level content feature with high-level semantic feature which aims in improving the veracity. At the same time,the inter-exchange between human and computer becomes more convenient.
  Key words:speech recognition;multimedia;retrieval
  
  1 引言
  多媒体信息直观形象且内容丰富,因而逐渐取代了文字信息成为网上的重要资源。多媒体信息包括文字、语音、图像和视频等多种媒体,而不同媒体有不同的特征,大体可分为三类[1]:(1)媒体外部属性,如媒体的名称、类型等;(2)视觉或听觉的特征,如图像的颜色、纹理、形状,音频信息的音高、响度、音色等;(3)高层语义特征,即利用经验和知识对信息的理解和解释。
  由此,一种综合利用多种媒体特征对各种媒体信息进行快速有效地检索的检索系统显得尤为重要。针对上述问题,本文提出一种利用语音识别对多媒体信息实现检索的系统,从而一方面以一种检索方式多种检索方法实现了对多种媒体信息的检索[2],另一方面使得人机交互更加便利。
  
  2 多媒体检索方法
  2.1 主题法
  利用词语来表达信息的主题观念,并以此标识编排组织和查找信息的检索方法。主要包括标题词法、叙词法、单元词法和关键词法。
  2.2 分类法
  将各种媒体信息按照学科、专业性质进行分类和排列,供用户按照知识关系查找。分类法具有良好的层次性和系统性,便于用户扩检和缩检,便于进行浏览检索。它包括体系分类法、组配分类法、混合式分类法三种。
  2.3 基于内容检索法
  传统的检索方式只利用关键词进行描述,不够正确且主观性太强。而基于内容的检索技能[3,4]是利用媒体的视觉和听觉等低级特征进行检索,避免了人为因素。
  
  3 基于语音识别的多媒体检索系统
  基于内容的多媒体检索技能主要利用媒体的低级特征,而没有使用高级检索技能中的手工操作和语义检索技能,无法充分而正确地反映媒体信息,有一定的局限性[5,6]。另外不同的用户对媒体信息有不同层次的理解和认识,对于其专业领域内的信息可以运用专业词汇对其进行清楚正确的描述和分类,可能希望通过主题法或分类法对媒体信息进行快速的检索;而对于不太熟悉的信息,可能希望通过较为直观的视觉或听觉特征,或是某一媒体特征对多其进行检索。为了满足用户对媒体多种不同的检索需求,本文提出了一种综合利用主题法、分类法和基于内容的多媒体检索技能,并在该系统中嵌入语音识别技能,以达到综合运用多媒体低层特征和高层语义特征来提高检索本能的目的,也使得人机交互更加便利。
  3.1 系统的前期筹备
  将信息库中的信息分辨利用主题法、分类法和基于内容检索法进行前期筹备。对于主题法,利用关键词对多媒体信息进行标识。如用文件名、周边的文字、所在网页的标题等对图像进行标识;音频信息,可利用其注释、标题或字幕等对其标注;视频信息,利用全文关键词或关键帧的关键词建立主题词索引。在分类法中,将多媒体信息按专业领域进行层次分类,用户可沿分类体系一级一级检索。分类体系可根据《中国图书馆分类法》的基本大类,再联合多媒体信息的特点,变成一定的组织形式。对于基于内容的检索方式,系统最初对搜集到的多媒体信息进行特征提取,并将信息特征作为测试模板存于特征库中,再与参考模板进行特征匹配,最后检索出用户所需的多媒体信息。
  3.2 嵌入语音识别技能
  在分类法和主题法中,用分类词或主题词作为标识,与用户读入的关键词做语音识别,最终将匹配结果反馈给用户。在基于内容的检索方式中,用户搜索音频或视频文件时,可读入其中一段台词或短语,对其进行听觉特征的提取,再将这些特征与测试模板库中的语音特征进行相似度的对照,将相似度最高的多媒体信息作为结果输出。这样不但能够在用户不知道或不记得信息的名称、作者、创作时间等外部特征时也能方便检索,而且不需要用户在一大堆由系统提供的查询例子中寻找一个可能相似的例子作为查询条件,因此在缩短了检索时间的同时系统的检索效率得到了大大的提高[7]。对于图形和图像信息,可利用语音识别使得人机交互更为方便的特性,由用户自定义指标或观念来对信息进行描述,如系统提供调色板、典型的纹理和形状图像,用户从中选择,使系统懂得用户定义的各种观念,从而了解用户所需要搜索的指标,系统再根据用户所定义的各种观念提取特征,与模板库中的特征进行相似度的匹配,将匹配结果反馈给用户。
  
  4 实验结果
  本实验选取HMM模型的语音识别系统,语音信号经过44100Hz采样,16bit量化为数字信号,帧长为25ms,帧移为10ms。数据库中存有100幅图像、时长为2秒的语音文件和视频文件各10个。检索结果如表1所示:
  
  5 结论分析
  针对不同用户的多种检索要求,设计了综合运用分类法、主题法和基于内容的多媒体检索系统,并嵌入语音识别技能,通过知识教导下的观念学习,联系多媒体信息的低级内容特征和高级语义特征,使得该系统在缩短检索时间的同时提高检索效率,以及人机交互变得更为方便。
  
  参考文献
  [1] 任金昌,赵荣椿,郑江滨.面向用户的多媒体检索中的多模态界面框架设计[J].计算机应用与软件,2003(1):38-42.
  [2] S Paek,CL Sable,V Hatzivassiloglou, A Jaimes,BH Schiffman,CF Chang, KR Mckeown.Integration of visual and test-based approaches for content labeling and classification of photographs. ACM SIGIR,1999.
  [3] Rui Y,Huange T.S.,Chang S.F., Image Retrieval:Content Techniques, Promising Directions and Open Issues[J].of Visual Commuication and Image Representation,1999(10):1-23.
  [4] S.Chang,W.Meng,H.Sundaram,D.Zhang.A fully automated content-based video search engine supporting spatial-temp acoustial queries.IEEE Trams. On Cir.And Sys.for Video Tech.. 1998,8(5):602-615.
  [5] Rui Y,Huang T S,Mehrotra S.Content-based image retrieval with relevance feedback in MARS[J].Proc IEEE International Conference on Image Proceeding,1997.
  [6] Zhu X. Q.,Zhang H.J.,HU C.H.et al.A new query refinement and semantic intergrated image retrieval system with semi-automatic annotation scheme[J].Journal of Electronic Imaging,2000,10(4):850-860.
  [7] Mahesh Viswanathan, Homayoon S.M.Beigi,Satya Dharanipragada, Fereydoun Maali,Alain Tritschler. Multimedia document retrieval using speech and speaker recognition[J].International Journal on Document Analysis and Recognition,2000(2):147-162.
  
  基金项目:华侨大学校级课题(编号:09HZR11)。

转载请注明来源。原文地址:https://www.7428.cn/page/2018/1127/47742/
 与本篇相关的热门内容: