未来智讯 > 物联网论文 > 基于物联网技能的搜索引擎技能研讨

基于物联网技能的搜索引擎技能研讨

发布时间:2019-02-11 01:06:04 文章来源:未来智讯    
    基yu物lianwang技nengdesousuoyinqing技neng研讨作者:未知   摘 要:近年lai随着物lianwang在ge个领域de不shi应yongshisousuoyinqing技nengju备了极为辽阔de发展前景针duisousuoyin擎在我国de应yong现状现jiang物联wang技neng应用到sousuo引擎软jiandangzhong以此提高sousuo引擎软jiande速度使搜suo引擎可以为人们提供更好的信息搜suo服务。
  关键词:物联网搜suo引擎;软件mokuai;技能;设ji
  zhong图分类号:TP391.3 wen献标志码:A 文章编号:295-29452018)20-0143-02
  Abstract: In recent years, with the continuous application of the Internet of things (IoT) in various fields, search engine technology has a very broad development prospects. In view of the current situation of search engine application in China, the Internet of things technology is now applied to search engine software to improve the speed of search engine software, so that search engines can provide people with better information search services.
  Keywords: Internet of things (IoT); search engine; software module; technology; design
  引言
  随着物联网技能的不shi发展,将信息技能和物联网技能jinxing融合,将使其在各个领域zhong发挥更da的作用。其主要包括jian索器搜索器、用hu接口及索引器四个zu成局部。搜索引擎在物联网中发挥着极为重要的作用,人们可以tong过搜索引擎在物联网中搜索到zi己suo需的信息,同时还能利用搜索引擎jin行漫游,能够说,搜索引擎极大程度地满足了人们对信息的需求。将物联网技能应用到搜索引擎技能当中去,可以在很大程度上提高搜索引擎的ben能,使搜索引擎在物联网中进行更加优质的信息搜索服务。因此,本文便对基yu物联网技能的搜索引擎技能进行深ru的研讨,以此开发出更加智能hua的搜索引擎。
  1 基于物联网技能的搜索引擎软件模块的设ji
  在基于物联网技能的搜索引擎软件中,其共包括四个组成模块,这些模块分辨shi网yezhuaqu模块、nei容索引模块、内容提取模块以及内容显示模块,以下便对这四个组成模块进行深入的研讨。
  1.1 网页抓取模块的设计
  网页抓取模块的功能在于其可以对用户所zhi定的zhan点实施网页抓取,ran后将所抓取的网页cun储到用户计算机的shujuku当中。而在本文中所提到的基于物联网技能的搜索引擎软件模块可以从腾讯、搜狐、feng凰及网易等大型网zhan中对xiang�P网页进行抓取,其只需要将这些大型网站中的页mianURL当作种子URL,bing对这些大网站中的网页URL所具备的格shi进行分xi,然后对网luopachong在网页分析及抓取时所产生的行为进行相应的抑zhi,bing对可以进行pa取的网页URL格式和对可以进入到等待爬取的URLdui列所具备的URL格式进行xian定。而要想使网络爬虫的爬取速度得到相应提高,jiu必须要对URL分配策略进行相应的改善,以确保网络爬虫所具备的并发线程数量可以增多,同时,还能够对Robot文件访问进行限制,以达到提高网络爬虫爬取网页效率的目的。
  1.2 内容提取模块的设计
  网页内容的提取模块功能在于其可以从用户计算机存储的网页中根ju特定的提取准则来对用户的所需信息进行提取,然后将这些提取的信息an照相应的格式存储至数juku当中。其在分析指标网页过程中,会对相应的信息chou取准则进行制定,以定位网页中的相关内容,同时对网页中所包含的文本内容进行抽取。在网页信息词库的构jian中,利用分词器来对用户所需的提取信息进行解析,然后将这些提取到的信息写入到相应的词库文件当中,从而使这些提取出的网页信息可以转化为jie构化信息,最终zai由数据库对这些结构化信息进行存储。
  1.3 内容索引模块的设计
  在基于物联网技能的搜索引擎软件中,对于内容索引模块的设计,主要是通过Luence索引工具来根据数据库中所存储的结构化信息来对索引文件进行建立的,在成功建立索引文件后,再将这些索引文件分辨存储至磁盘当中。这样,当用户需要对相应的内容进行索引查xun时,其只需要在搜索引擎中shu入相应的查询条件,即可对磁盘中的任意索引文件实施查询,而且搜索引擎软件还会根据用户输入的查询条件的满足程度,按照相应的顺序分辨反kui给用户,从而使用户可以对所有适合查询条件的索引文件进行一目了然地筛选。
  1.4 内容显示模块的设计
  在基于物联网技能的搜索引擎软件中,内容显示模块的设计也是一大设计要点,该模块以Jsp技能为核心,在向用户展示jie面时,是以Web形式实现的。用户在对mou些信息进行搜索时,需要在搜索引擎软件的搜索栏界面输入相应的关键词,此时,搜索引擎软件便会根据用户搜索的词,从本地数据库中对可以与关键词相pi配的网页进行查询,在查询到所有与关键词相匹配的网页后,搜索引擎软件会根据这些网页的匹配程度,并按照相应的排序准则将这些网页显示到界面当中,用户只需要点击这些网页信息,便可迅速切换到该网页的详细内容,进而帮助用户快速找出网页内容。
  2 基于物联网技能的搜索引擎技能的具体设计
  2.1 网页抓取
  在基于物联网技能的搜索引擎软件设计中,网页抓取技能实质上就是一个可以对网页进行自动提取的网络爬虫程序,其可以从物联网中对网页进行下载,能够说,该程序也是搜索引擎软件的核心所在。在以往的网络爬虫中,其是从单独或多个初始网页的URL做为起始点,以得到这些初始网页中的URL格式,其在对网页进行抓取时,需要在当前界面中对新的URL进行不时地抽取,然后将其放入到dui列当中,当满足中duan条件时才会中断。对于聚焦爬虫的事务流程来说,其是对照复杂的,其依据网页分析算法来对网页中和主ti没有关系的链接进行过滤,并对有用链接进行保留,同时将其置于待抓取URL队列当中。此时,其便会按照特定的搜索策略在URL队列中对需要进一步抓取的网页URL进行抓取,然后对上述过程进行不时的反复,直至满足系统的中断条件时才停取抓取。网页抓取模块利用网络爬虫从各个网页中对用户的所需页面URL进行爬取。网络爬虫在被激活时,我们需要在URL请求队列中投入URL种子,种子应为具备代表性的页面URL,如凤凰、搜狐、腾讯等,并通过分析这些具备代表性的页面URL格式,以获得与上述页面相符的URL格式,然后将这些URL格式放入到请求队列当中。   2.2 网页信息抽取
  在搜索引擎软件中的网页信息抽取模块中,其主要是根据相应的抽取准则来对本地计算机中存储的网页进行相关信息的抽取,然后将这些抽取到的用户所需信息按照相应的格式存储至数据库当中。其在对网页信息进行抽取时,需要对存储网页的本地文件夹进行bian历搜索,遍历的方法能够选取深度优先遍历或广度优先遍历等。当遍历到该文件中包含有需要抓取的网页时,则会通过Jsoup的使用来对网页中的作者、标题、正文准时间进行定向抓取,然后将这些抓取到的内容按照.txt格式存储至用户所指定的文件夹当中。对于这些抓取到的内容,如网页中的标题、发布时间、作者、链接地址等还会存储到数据库中的new表相应列当中。
  2.3 内容索引
  在内容索引时,搜索引擎会根据数据库中所存储的结构化信息,通过Luence索引工具来对相应的索引文件进行构建,在索引文件构建好以后会将其存储至磁盘当中,然后依据用户的查询条件来对相应的索引文件进行排序,然后将排序结guo反馈给用户。
  综上所述,本文根据物联网技能中所生成的海量数据,提出一种基于物联网技能的搜索引擎,该搜索引擎在实际应用过程中具备以下功能:其一,通过扩展网络爬虫来提高网页抓取速度;其二,利用Jsoup网页解析工具来对指标网页中的具体内容进行提取,然后将这些提取到的内容存储到数据库当中;其三,利用Luence检索工具实现用户对本地数据库中相关信息的索引,并选取Jsp来对信息进行过滤及展示;其四,通过MYSQL数据库在搜索引擎中的应用,以使搜索成本降低,并且MYSQL数据库还能有效减轻结果集的负荷,使数据的传输速度加快;其五,搜索引擎软件的界面美观简便。通过对该搜索引擎软件进行测试,测试结果表明,基于物联网技能的搜索引擎在信息搜索过程中具备稳定、高效的优势,同时具备良好的UI交互设计功能。
  参考文献:
  [1]李彦辰,艾庆忠,王少非.基于Redis的分布式搜索引擎研讨[J].软件导kan,2018,17(03):201-204.
  [2]郭文俊,乔世东.基于多Agent的搜索引擎技能的研讨[J].山西大同大xue学报(自然科学版),2017,33(03):4-6.
  [3]杨宇,杜文斌,周亚jun.计算机搜索引擎智能化技能研讨[J].电脑迷,2017(07):20.
  [4]�Y继娅,刘彤,刘宇.基于seo技能与模板引擎技能的网站优化策略[J].情报理论与实践,2010(05):99-102.
  [5]许瑞.搜索引擎技能的发展现状与前景[J].中国新技能新产品,2017(02):20-21.
  [6]杨子墨.智能技能在搜索引擎中的应用[J].科技创新与应用,2016(35):98.
  [7]周先军,cao基军,周瑾,等.基于关键词提炼的seo方案[J].科技创新与应用,2016(12):78-79.
转载请注明来源。原文地址:https://www.7428.cn/page/2019/0211/85049/
 与本篇相关的热门内容: