班级博客作业汇总系统设计与实现文献综述-论文综述网

文献综述

对于网络爬虫的研究从上世纪九十年代就开始了，目前爬虫技术已经趋见成熟，网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括Nutch，Larbin，Heritrix。网络爬虫最重要的是网页搜索策略（广度优先和最佳度优先）和网页分析策略（基于网络拓扑的分析算法和基于网页内容的网页分析算法）。

国内外流行的爬虫技术相当多，很多人喜欢基于Python的，也有人喜欢用C#，很多人由于系统集成开发和跨平台的需要倾向于java，我更喜欢用Python。就原理来说，爬虫组件都是差不多的，无头浏览器，最能够说明爬虫的特性，它们被设计创造出来，大部分情况是用于自动化测试的。基于socket的httpclient功能简单，性能强大，特别是在高并发的情况下，而被大家所青睐，特别是搜索引擎中，如果抓取静态页面，httpclient非常适合。

互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具。但是，这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题，一个灵活的爬虫有着无可替代的重要意义。

本次课题以班级博客作业为例，博客园为平台，设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，要考虑到网络爬虫的各种需求。

网络爬虫主体网站的特性。对url进行构造。网络爬虫使用scrapy实现多线程，让爬虫具备更强大的抓取能力和灵活性。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。

参考文献：

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

班级博客作业汇总系统设计与实现文献综述

文献综述

您可能感兴趣的文章

登录

文献综述

您可能感兴趣的文章