文献综述
信息抽取是一种文本处理技术,其目的是根据预定义好的模板,从自然语言文本中抽取出特定的信息,并将其形成结构化的数据,然后填入一个数据库中供用户查询使用的过程信息抽取不仅能帮助人们方便地找到所需信息,而且信息的内容经过合理的分析和组织后,人们可以有效地获取感兴趣的信息,并可在此基础上进一步进行数据挖掘文本生成等后续信息处理。
Web信息抽取就是从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式(XML关系数据面向对象的数据等)。
一、Web信息抽取原理与方法
1 基于本体的信息抽取
基于本体的信息抽取具备了一个适应性网络信息抽取系统应该具备的许多特征,基于本体的抽取工具使用领域知识来描述数据包括关系词频上下文关键词基于领域本体产生的包装器具有内在的弹性(即使页面的格式特征发生了改变,它也能继续工作)和通用性(它能处理属于某一应用领域的纷繁复杂各式各样的网页)但是基于本体论的抽取工具要求数据完全使用独特的特征来描述,要么具有唯一的特性,要么能使用上下文关键词,而很多的网页数据都不能满足这些要求。
2 基于位置的信息抽取
依据网页文档的内在结构特征来完成数据抽取在一个基于位置的信息抽取系统中,html文档被送入html剖析器中,这个剖析器建立了一个反映了html标签等级的剖析树,寻找和定位数据的抽取规则依据分析树的层级来制定。
基于位置的信息抽取缺乏本体论抽取的弹性当目标网页的结构发生改变的时候,这种方法变得不可行。然而,它有很高的信息抽取准确性,在查全率和查准率上至少能达到98%
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。