一、基于微信公众号爬虫的主题聚合服务设计
摘要
随着网络的高速发展,移动互联网逐渐走进人们的生活。微信作为近十年来新兴的移动社交平台,根据中国互联网络信息中心2017年发布的第40次《中国互联网发展状况统计报告》显示,在最常使用的手机应用榜中,微信以79.6%的选择率位于榜首[1],它在群众中的普及率是极高的。早在2015年,微信平台上的注册公众号就超过了800万[2],累计发布了超过2亿的文章[3],面对如此海量的数据,设计一个基于微信平台的爬虫程序显得十分有必要。
关键词:微信 爬虫 分布式爬虫 文本
(一)国内外研究现状
随着近几年大数据概念的兴起,网络爬虫逐渐走进人们的视野,其在国内外也一直都是研究的热点,研究内容通常包含以下几个方面:爬行策略、海量数据的存储及索引、网页评级等[3]。网络爬虫按照系统结构和实现技术可以分为以下几种类型:通用型网络爬虫、聚焦型网络爬虫[4]、增量式网络爬虫、深层网络爬虫[5]。
国外对于爬虫的研究始于1993年,Matthew Gray开发的Wanderer是全世界第一个网络爬虫。当时的网络爬虫是单机网络爬虫,在这之后由于网络规模的扩大,Cho J等人提出了分布式爬虫的概念,这为之后网络爬虫的发展奠定了理论基础[3]。关于分布式爬虫,国外的一些研究主要有:Googlebot、IPMicra、Meracator、Apoidea等。
国内也有学者开展对分布式爬虫的研究,例如:天网搜素引擎——北京大学研发的基于局域网分布式爬虫实现的商业化搜索引擎;Igloo——上海交通大学研发的基于网格服务实现的分布式网络爬虫;吕阳、万涛和钱建学分别都基于Hadoop设计并实现了一个分布式网络爬虫系统;王毅桐设计并实现了一种基于MapReduce分布式计算模型的中小型规模网络爬虫等[3]。
除了分布式爬虫的研发,国内也有一些关于主题网络的研究。这些研究主要为:罗一纾为新浪微博设计的数据去重、数据获取技术;李海燕设计的网络舆情爬虫系统可以尽早发现网络种的负面信息;徐显炼设计并实现了一个分布式在线旅游搜索爬虫系统,该系统通过搜索网络中的旅游平台和旅行社网站研究用户对于旅游的搜索需求等[3]。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。