基于网络爬虫技术的知识网民集体记忆网站的设计与实现文献综述-论文综述网

一、文献综述

（一）国内外研究现状

1.网络爬虫方面：

网络爬虫又称为网络蜘蛛、网络机器人，是一个自动下载网页的计算机程序或自动化脚本。在1993年的春天，由麻省理工学院的学生Matthew Gray开发出了第一个网络爬虫 World Wide Web Wanderer，当时被用来统计互联网上的服务器数量、检索网络域名，如今搜索引擎的思想就来源于Wanderer。而随着搜索引擎的发展，作为其重要组成部分的网络爬虫技术也得到了迅速发展，到现在，网络爬虫技术越来越成熟。在数据量爆发式增长的互联网时代，通用的的爬虫技术已经无法满足用户的需求，因此，从互联网上采集特定主题资源的主题爬虫应运而生。国内外学者对爬虫进行了深入研究，设计了很多高效的主题判别方法和搜索策略，并且成功地研究了许多典型的、使用的爬虫系统。

（1）国外研究现状：

国外研究者P.DeBra提出了Fish-Search算法（鱼群算法）来指导爬虫爬行，该算法基于链接内容评价，模拟了鱼群觅食和繁殖过程，每一个网页相当于鱼，当他们找到食物（相关信息）时，开始繁殖（继续寻找相关页面）。该算法采用二值模型来判断页面是否主题相关。M. Hersovici则对Fish-Search 算法进行了改进，提出了Shark-Search算法(鲨鱼算法)，通过链接周围文本价值和链接的“继承”价值决定抓取的深度。

Google Crawler中的网络爬虫采用的是分布式网络爬虫,使用多台机器共同爬取，由中央主机和多台爬行主机组成，不同功能模块，分别运行在不同的进程中。

Mercator是一个采用Java实现网络爬虫。它优秀的数据结构设计，使得不管爬虫任务规模有多大，Mercator 只是占用非常有限的内存空间。另外，它采用URL缓存技术，将访问过的URL存入缓存中，下次访问时可以直接读取，节省了读取时间，提高了爬虫的整体性能。

Nutch则是用Java编写的开源网络爬虫，基于Hadoop平台实现的，Nutch采用Hadoop平台提供的分布式计算框架MapReduce实现爬虫。

国外NEC研究院的CiteSeer系统，是国外研究者主题搜索引擎系统，是一个面向计算机领域的科学论文检索系统，该系统通过引文链接，为用户提供检索和下载文献的功能。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于网络爬虫技术的知识网民集体记忆网站的设计与实现文献综述

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章