基于网络爬虫技术的教育资源网站的设计与实现文献综述

 2022-08-12 11:21:18

一、文献综述

(一)国内外研究现状

网络爬虫是任何基于爬虫的搜索引擎的核心,它不断地遍历网络上的网页来收集可以被索引器索引的信息,从而有效地处理任何用户的查询操作。搜索排名算法有序的返回那些最匹配的网页,以响应对应的用户查询。从1993年在麻省理工学院首次被开发以来,经过了20多年的发展,技术手段日趋完善,已经成为一项成熟且应用广泛的技术。互联网技术飞速发展的今天,我们需要准确而快速的从海量的信息中提取到所需的信息。随着互联网以及搜索引擎的不断发展,我们对于信息检索的需求变得更高也更加的多样化。一个网络爬虫的工作过程, 就是从某个网站中的某一个页面开始, 读取网页的HTML内容, 并在该网页中找到其他网页的链接地址, 然后通过这些链接地址寻找下一个网页, 这样一直循环下去, 直到把这个网络中所有的网页都抓取完为止。孙立伟,何国辉,吴礼发[8]等人和冯俐[14]都对网络爬虫技术进行了总结和思考。

(二)研究主要成果

为满足不同用户多种多样的需求,创建开发了类型众多的爬虫系统。按照实现技术和其系统构成,爬虫系统主要可以分为以下几种:

通用网络爬虫:这些爬虫并不局限于特定类型、主题或领域的网页,它们不停地跟踪链接,得到它们遇到的所有网页。这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。 虽然存在一定缺陷,通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。

优先网络爬虫:这种类型的网络爬虫不会爬取它们遇到的所有链接,而是用户提交一个条件或感兴趣的主题来指导这类爬虫程序。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。此外,优先爬虫可以分为聚焦网络爬虫和主题网络爬虫。聚焦爬虫的工作流程则较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接。参考文献[11][12][13]中都提出了有关主题网络爬虫的设计与实现。

深层网络爬虫:大量的网络信息无法通过网页上的超级链接接直接访问。这些信息隐藏在搜索或查询界面后面,这部分网络称为隐藏网络或深层网络。一种称为深层网络爬虫的特殊爬虫用作处理对这部分网页的信息爬取。

增量式网络爬虫:网络是动态的,网页上的数据经常变化。这种爬虫程序用于维护搜索引擎的索引数据库以保持最新的状态。然而,在保持最新状态和资源的消耗之间需要进行权衡取舍。增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上 保证所爬行的页面是尽可能新的页面。 和周期性爬行和刷新页面的网络爬虫相 比,增量式爬虫只会在需要的时候爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小 时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。