一、文献综述
(一)国内外研究现状
1.网络爬虫方面:
网络爬虫又称为网络蜘蛛 、网络机器人,是一个自动下载网页的计算机程序或自动化脚本。在1993年的春天,由麻省理工学院的学生Matthew Gray开发出了第一个网络爬虫 World Wide Web Wanderer,当时被用来统计互联网上的服务器数量、检索网络域名,如今搜索引擎的思想就来源于Wanderer。而随着搜索引擎的发展,作为其重要组成部分的网络爬虫技术也得到了迅速发展,到现在,网络爬虫技术越来越成熟。在数据量爆发式增长的互联网时代,通用的的爬虫技术已经无法满足用户的需求,因此,从互联网上采集特定主题资源的主题爬虫应运而生。国内外学者对爬虫进行了深入研究,设计了很多高效的主题判别方法和搜索策略,并且成功地研究了许多典型的、使用的爬虫系统。
(1)国外研究现状:
国外研究者P.DeBra提出了Fish-Search算法(鱼群算法)来指导爬虫爬行,该算法基于链接内容评价,模拟了鱼群觅食和繁殖过程,每一个网页相当于鱼,当他们找到食物(相关信息)时,开始繁殖(继续寻找相关页面)。该算法采用二值模型来判断页面是否主题相关。M. Hersovici则对Fish-Search 算法进行了改进,提出了Shark-Search算法(鲨鱼算法),通过链接周围文本价值和链接的“继承”价值决定抓取的深度。
Google Crawler中的网络爬虫采用的是分布式网络爬虫,使用多台机器共同爬取,由中央主机和多台爬行主机组成,不同功能模块,分别运行在不同的进程中。
Mercator是一个采用Java实现网络爬虫。它优秀的数据结构设计,使得不管爬虫任务规模有多大,Mercator 只是占用非常有限的内存空间。另外,它采用URL缓存技术,将访问过的URL存入缓存中,下次访问时可以直接读取,节省了读取时间,提高了爬虫的整体性能。
Nutch则是用Java编写的开源网络爬虫,基于Hadoop平台实现的,Nutch采用Hadoop平台提供的分布式计算框架MapReduce实现爬虫。
国外NEC研究院的CiteSeer系统,是国外研究者主题搜索引擎系统,是一个面向计算机领域的科学论文检索系统,该系统通过引文链接,为用户提供检索和下载文献的功能。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。