网络舆情监测系统的设计与实现文献综述

 2022-08-12 11:23:39

一、文献综述

随着移动互联网以及智能终端设备的飞速发展,互联网已经成为我国舆论的主要载体。中国互联网信息研究中心(CNNIC)在2020年发布的中国互联网发展状况统计表明,截止到2020年3月,我国网民数量为9.04亿人,其中移动网民用户规模超过8.97亿人,移动互联网普及率较2019年大幅增长。网民可以通过微博、微信、自媒体等发表自己对当下社会热点话题的意见和态度,这些通过网络发表和传播的言论被定义为网络舆论。由于网络舆情具有自由度高、隐蔽性强、传播速度快、受众群体广泛等特点,传统的舆论分析和预测技术已经难以适应目前舆论分析和预测任务。海量的网络数据给我们体统了大量的可供分析和建模的数据,同时带来了一系类的挑战。因此,本文结合当前机器学习、深度学习等先进分析技术和方法,对当前网络舆情分析和预测技术进行梳理和总结,并结合实际使用场景进行深入的讨论。

(一)国内外研究现状

一般来说舆情分析和预测可以大致分为两个阶段,分别是传统舆情分析和预测阶段和网络舆情分析和预测阶段[1]。传统的舆情分析和预测方法主要着眼于研究小范围内的社会热点话题,如相关法律政策的出台等,对部分民众情绪以及社会走向的影响。目前由于网络技术的飞速发展,自媒体、微博等基于互联网的多种交流渠道日渐完善,互联网成为了舆情的主要传播载体,网络舆情分析和预测技术的相关理论和技术也日渐完善。因此,网络舆情分析和预测技术逐渐成为网络工程领域的一个重点的研究课题,网络舆情分析和预测主要是基于大数据分析、机器学习以及人工智能等先进的数据分析手段,从海量的舆情数据中探索和发掘当前热点事件背后的关联以及事件在群众之间产生的影响进行预判。网络舆情分析和预测技术主要包括网络数据采集、舆情数据处理、数据分析和预测等关键步骤。

(二)研究主要成果

1、网络数据采集

网络舆情分析和预测技术中的所使用的数据主要是通过网络爬虫进行搜集。网络爬虫是一种借助搜索引擎,按照一定的规则进行信息搜集和查找的技术手段,这种方法可以快速、高效的从互联网获取大量文字、语音以及视频等多媒体内容。目前常用的网络爬虫技术有Nutch、Crawler4J、Larbin、Heritrix。其中,Nutch技术是最常用的一种工具,该方法的后端使用Java进行开发,可以定制化的完成页面检索和拓展抓取;此外该方法还支持大规模并行处理,可以将算法部署到不同的计算机集群中,进行协同处理。马梅等人基于Nutch开发了一种面向新浪微博的网络爬虫技术[2],该方法克服了官方API接口中无法下载大量信息的缺点,为使用微博数据进行社会舆论分析提供了极大地便利。此外,基于PageRank、FishSearch算法的爬虫策略也常常被使用在数据收集过程中。

2、数据数据处理

舆情数据处理是指对使用网络爬虫技术所获取的数据进行处理。经过爬虫获取的数据中含有大量的无关连接、广告等无关内容,数据清洗的目的也就是去除这些噪声数据。王少鹏等人提出了一种聚焦式的网络舆情数据清洗方法[3],这种方法根据需求对获取的数据聚焦,在海量数据中快速寻找所需要的目标。Aggle[4]等人提出了一种基于排序的智能数据爬取和处理技术,该技术采用主动学习的手段对爬虫技术进行了改进,使改进后的技术在数据获取阶段对大量网络数据进行分类和预处理,该方法在音频、视频的获取和处理方面应用广泛。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。