- 文献综述
随着互联网技术的不断发展和普及,面对海量的信息,尤其是在新闻领域和搜索引擎方面,如何从中取出对自己有用的信息,已成为信息提取处理领域的一个亟待解决的问题。可能有人会说直接看标题,但是现在不管是新闻还是搜索引擎方面,哗众取宠的标题都太多,所以一个可靠的文档摘要提取系统已经成为必要。信息提取是自然语言处理的一大研究领域,指从大量的文本中提取出感兴趣的信息,具体来说就是提取出文本中的重要的信息,比较准确地代表文本的中心思想。
而文档摘要提取也是早早就进入到相关学者的视线中,不管是国内的还是国外的。可以这么说,只要计算机行业还在持续发展,那么文档摘要提取方面的研究也会持续进行。在早期,深度学习还不是很火热的时候,文档摘要提取的研究是利用传统的统计方法。杨勇涛(2009)在《文本自动摘要提取算法》一文中提到“文本自动摘要提取算法主要分以下几步进行:(1)对文本进行分词,并将文本用VSM形式表示。(2)计算特征词的权值。(3)通过特征词和句子的物理位置计算句子的权值。(4)判断标题对文本主题是否有影响。(5)将备选摘要句列表中的句子进行相似性计算,除去相似性较高的句子,并输出结果。”。这一方法能够比较精确地从文档中提取出摘要来。
但是传统方法有其重大缺点,不说其他的,先说精确率,杨勇涛(2009)在论文中提出的方法其精确率只有70%,远远不能满足人们的心理需要。所以在后来又有学者利用传统方法进行研究,以求能够改善精确率。章芝青(2010)在《基于语义的单文档自动摘要算法》中提出了与之前不一样的方法,那就是先把文档划分为句子,然后计算每一对句子的语义相似度,通过运用改进型K-Medoids聚类算法将相似的句子归类,在每一类中选出最具代表性的句子,最后将句子组成文档摘要。由于是对句子进行处理,而且采用了融合语义信息的方法,所以这个方法的精确率要比对词进行分析要好一点。
然后,越来越多的学者从各个方面针对文档摘要提取进行研究,随之大量此类文献不断涌现出来,各种各样的方法也被提出来。不管是利用分词进行分析还是利用语义进行分析或者是基于词句协同排序(2017)进行分析,种种方法的提出让文档摘要提取的研究往前迈了一大步。
但是,传统方法也遇到了瓶颈,而深度学习和机器学习的快速发展又给了大量学者以参考,所以有人开始尝试采用深度学习的方法进行研究。李然(2014)在《基于主题模型与信息熵的中文文档自动摘要技术研究》一文中提出了一种基于LDA模型以及信息熵的文档自动摘要技术,即通过LDA模型对文档进行浅层语义分析,得到文档的主题分布以及不同主题下的词语分布;通过对主题的分析,可以得到最能代表文档中心思想的主题,以及该主题下的词语分布。同时,提出了一种新的基于信息熵的度量句子重要性的方法,并将该方法应用于文档的关键句抽取过程中。该方法将文档中句子的出现看成一个随机变量,通过对随机变量建模并度量它的信息熵来选取文档中的关键性语句。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。这一模型的使用大大提升了文档摘要提取的精确率,促进了后来的研究。
再然后刘娜(2015)在《基于LDA重要主题的多文档自动摘要算法》一文中再一次提出了使用LDA模型进行文档处理。但是刘娜(2015)在深度学习的基础上又融合了传统的统计方法,同时使用句子的词频、位置等统计特征,突出了传统统计方法的显著优势。同时又对已有的LDA模型进行改进,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性,更好地适应现在的研究需要,再一次提升了精确率。
再后来相关的研究继续推进,但是由于计算机的性能在短时间内没办法得到显著的提升,深度学习的算法也没能取得突破性的进展,张璐(2017)等人的研究也就没能取得太大的突破,只能说有所进步,但是幅度不是很大,效果不是很明显。
另外,相较于汉语的文档摘要提取,国内的学者对英语的文档摘要提取的研究兴趣明显就不是很高,这也是由英语的性质决定的,和汉语比起来,英语要更容易进行分词,所以在我找到的文献范围内(万方中国学位论文全文数据库、CNKI中国优秀硕士论文全文数据库),相关的论文都比较罕见。由于汉语的文档摘要提取难度要明显更大,所以国内的学者都比较倾向于研究这一方面。但是我以为,在现在这个时代,英文在学术方面占有很大的地位,有一个性能优异的英语文档摘要提取系统也是很有必要的。所以我觉得可以利用LDA模型来对英语的文档摘要提取领域进行研究,并且与汉语进行对比,应该会有新的发现。
2.要解决的主要问题、解决方案
一、要研究或解决的主要问题
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。