基于Scrapy框架的爬虫搜索引擎文献综述

 2022-08-09 16:03:44


一、文献综述

(一)国内外研究现状

万维网上有很多网页,其中包含了大量的信息。然而,很多时候,不管是数据分析还是产品需求,我们都需要从某些网站中提取有趣且有价值的内容。然而,即使人类已经进入21世纪,他们仍然只有两只手和一只眼睛。不可能每一页都要点击查看,然后复制粘贴。因此,我们需要一个程序,可以自动获取网页内容,并根据指定的规则提取相应的内容。这就是爬虫。网络爬虫的研究始于20世纪90年代,目前网络爬虫技术已经成熟。网络爬虫是搜索引擎的重要组成部分。因特网上最著名的开源爬虫包括NoCUI、Larbin和GristRix.网络爬虫最主要的是网络搜索策略(广度优先和最佳优先)和网络分析策略(基于网络拓扑的分析算法和基于Web内容的网络分析算法)。原理上,爬行器组件是相似的。无头浏览器最能描述爬虫的特性。它们被设计和创建,并且大多数用于自动化测试。

(二)研究主要成果

网络爬虫也叫网络蜘蛛,它是一个按照一定的规则自动提取网页程序,其会自动的通过网络抓取互联网上的网页,这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术是把网页中的相关数据保存下来,可以成为搜索引擎。

搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列表网站上获取。

在爬虫的组成部分上,一个典型的网络爬虫主要组成部分如下:

1. URL 链接库,主要用于存放爬取网页链接。

2. 文档内容模块,主要用于存取从 Web 中下载的网页内容。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。