网络评论中垃圾帖识别方法研究文献综述

 2022-11-15 20:57:01

文 献 综 述

1研究背景及研究意义

1.1 研究背景

根据中国互联网信息中心发布的第 38 次《中国互联网络发展状况统计报告》[1],截至 2016 年 6 月,我国网民规模达 7.10 亿,上半年新增网民 2132 万人,增长率为 3.1%。我国互联网普及率达到 51.7%,与 2015 年底相比提高 1.3 个百分点,超过全球平均水平 3.1 个百分点,超过亚洲平均水平 8.1 个百分点。并且,我国手机网民规模达 6.56 亿,网民中使用手机上网的人群占比由 2015 年底的 90.1% 提升至 92.5%,仅通过手机上网的网民占比达到 24.5%,网民上网设备进一步向移动端集中。随着移动通讯网络环境的不断完善以及智能手机的进一步普及,移动互联网应用向用户各类生活需求深入渗透,促进手机上网使用率增长。统计数据表明,互联网在经济社会中地位进一步提升、与人民生活结合更加紧密、网民的互联网生活形态日益显现等特点。

随着 Web2.0 时代的到来,网民的角色逐渐由单纯的信息接收者转变为信息的创造者和贡献者,大型门户网站、论坛社区和网络购物平台等的互动量显著增加,而这些信息当中包含了发帖机和水军发布的大量灌水帖、垃圾广告甚至是违法信息,严重降低网民的访问体验,也随之降低了论坛用户的活跃度和流量,同时还干扰了面向评论内容的数据挖掘和舆情监测工作。例如,Akismet 仅在 2009 年到 2012 年之间的 Wordpress 博客中发现了超过 250 亿条垃圾评论[2]

1.2研究意义

在 Web2.0 时代的背景下,无论是新闻报道、商品评论或是社交网络中,来自用户的评论往往占据了与之相关的信息量的绝大部分,这种频繁和密集的评论活动十分便捷高效,满足了网民的信息交流需求,因此吸引了众多网民竞相参与,发表对新闻任务和事件,或是商品的看法和意见。这些评论信息为收集网络舆情提供了重要的基础,通过对这些评论的分析,可以获取其中蕴含的深层次信息,就能够把握第一手的网络民意[3]

但是这种广泛的信息交流带来的负面影响也不容小觑,例如在某些互联网话题下的用户评论中充斥着极具攻击性的恶意言论,或是在某些商品的评论中出现的虚假广告信息等。这样的垃圾信息往往来自于网络水军或是恶意攻击者的发帖机器人,它们不但对普通用户的正常互联网生活造成了影响,还对网络舆情的搜集和分析带来了极大的干扰。

为了应对这些垃圾信息,网站管理者通常会采用验证码和实名认证的形式来增加机器人和网络水军的发帖难度,从一定程度上减少了这些垃圾信息的数量。但这也为一般用户的正常使用造成了些许的不变,并且这样的方法也不能完全杜绝垃圾信息的出现,因此文本过滤技术成为解决这一问题的新方式。

2 国内外研究综述

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。