基于遗传算法的微博情感分析文献综述

 2022-11-10 12:36:44

文献综述

1 研究背景及意义

微博,即微博客的简称,是一个基于用户关系的及时性的信息分享、传播以及获取的平台。微博给予网络用户更加自由、更加便捷的方式来沟通信息、表达观点、记录心情,已经成为全球最为热门的互联网应用之一。仅以国内的新浪微博为例,目前其注册用户已突破3亿,用户每日发博量超过一亿条。

情感分析是指分析说话者在传达信息时所隐含的情绪状态,对说话者的态度、意见进行判断和评估。情感分析在微博海量数据上的应用,将有助于完善互联网的舆情监控系统,丰富和拓展企业的营销能力。通过波动分析,实现对物理世界异常或突发事件的检测。此外,还可以应用于心理学、社会学、金融预测等领域的研究。故对于微博情感分析的研究有着很重要的现实意义。

遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是自然遗传科学与计算机科学相互结合、相互渗透而形成的新的计算方法。它是一种全局化搜索算法,尤其适用于传统搜索算法难于解决的复杂问题和非线性问题,NP-hard问题。在进行情感分析中,将文本进行处理后需进行特征选择。特征选择问题本质上是一个多维变量组合优化问题,其目标是:在识别系统的性能没有明显下降的前提下,从给定的n个特征的候选特征集中选取m个特征形成特征子集(mlt;n)。通过特征子集选择得到特征自己可以大大减少数据的存储量和存储错误率。并且已证明最优(最小)特征子集选择问题(OFSS)是一个NP-hard问题,故适宜使用遗传算法来进行微博情感分析,并获得最优解。

2 相关研究方法介绍

微博情感数据可通过API接口下载数据或者使用“爬虫”获取数据,再对每个文本数据进行文本预处理,包括中文分词、词性标注等。再选取某种特征项权重计算方法构建向量空间模型,然后采用相应的特征选择方法进行特征的选择,以构成原始的情感特征矩阵,再用遗传算法产生若干个可能的情感特征子集,对于每一个可能的情感特征子集,用评价函数来衡量此特征子集对于子分类正确率的有效性,并记录当前识别率最好的情感特征组合及相应的识别率,直到满足算法的停止条件时,最末代的适应度最大的个体就是对分类某种情感状态最有效的情感特征组合,最后使用分类器在遗传算法选出的特征上进行分类。

2.1 微博语料收集及文本预处理

微博语料可以通过互联网上提供的语料库获得,如计算机学会提供的情感分析实验数据。也可以使用微博爬虫或网站应用程序接口(API)函数获取。从文献[4]所分析,仅采用传统网络爬虫易陷入局部最优,在大范围主题爬行中往往召回率低,而且某些网站还设有反爬虫限制,制约了数据的获取;若单纯使用API接口访问可能会由于过度或恶意调用影响微博平台的性能,“调用”会受限制。因此其提出主题爬虫结合API接口的方式进行语料收集,故在本次研究中也将使用这种方法来获取微博语料。

文本预处理技术包括中文分词、词性标注、句法分析等自然语言处理技术,这些技术相对比较成熟,国内也有若干软件及语言开发个平台提供研究人员使用。如使用由中国科学院计算机技术研究所研制的基于多层隐马尔科夫模型的汉语词语分析系统是当前较好的汉语词法分析器。故在本次研究中使用该系统进行文本预处理。此外,根据微博文本的特性,还需要对微博文本中的链接地址、“@”字符(用于回应或沟通其他用户)以及“#”字符(用于话题的归类)进行过滤工作。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。