一、文献综述
(一)国内外研究现状
计算机图形学一直以来被应用于研究科学问题。然而在早期,可视化的实用性一直受到图形学发展的限制。直到1987年,“科学计算可视化”在美国科学基金会一次研讨会上的提出和《Visualization in Scientific Computing》的出版极大地促进了可视化的发展,从此,一门崭新的交叉学科诞生。从发展阶段来说,可以将其分为科学可视化、信息可视化和数据可视化三大部分[2]。随着信息技术的快速发展,海量数据产生的信息超载和数据过剩的问题,使得可视化成为一个迅速发展的新兴领域。可以把纷繁复杂的数据筛选、整理、排列,用图形、图像的方式展现在我们面前。一方面,它在科学、教育、工程、医学等方面的应用都在不断扩大。在另一方面,人们阅读文字图片时,都是通过视觉识别,但大脑中枢识别时却不相同,人们往往对图形更敏感。因而图形的表达力与吸引力往往胜于文字,可视化的发展也正是因为人们对于图形的需要[1]。
通过分析的数据类型对可视化进行划分,大致可以分为统计数据可视化、关系数据可视化、地理空间数据可视化、时间序列数据可视化以及文本数据可视化[22]。其中,文本可视化的工作内容较为复杂。文字是传递信息最常用的载体,随着海量文本的涌现,信息超载和数据过剩等问题日益凸显,当大段大段的文字摆在面前,已经很少有人耐心、认真把它读完,人们急需一种更高效的信息接收方式,从视觉的角度出发,文本可视化正是解药良方。所谓一图胜千言,其实就是文本可视化的一种表现。
文本可视化综合了文本分析、数据挖掘、数据可视化、计算机图形学、人机交互、认知科学等学科的理论和方法,为人们提供了一种理解海量复杂文本的内容、结构和内在规律等信息的有效手段。文本可视化的过程[24,25]包括文本分析、可视化呈现和交互设计。其中,文本分析包括信息收集、数据预处理和知识表示。
1. 信息抽取研究现状
信息抽取的主要任务是从半结构化或者无结构化的文本抽取特定的数据信息,组织成结构化的形式便于文本分析和内容检索[20]。从1987年到1997年,消息理解系列会议(Message Understanding Conference,MUC)的召开对信息抽取的研究应用起到了极大的促进作用,并制定了信息抽取的具体任务和评测体系,主要包括命名实体识别、共指消解、关系抽取、事件抽取等信息抽取任务[18]。
在国内针对中文文本的信息抽取的研究起步较晚,因为中文与西方语言存在巨大差异,中文文字组成的语句中并没有空格这样明显的分隔符号,因此中文信息抽取研究难度更大。在 MUC-7、MEC 等会议的促进作用下,中文信息抽取研究在中文命名实体识别方面取得了较好的进步。目前大量的相关研究聚焦在非结构化文本的中文新闻语料库信息抽取上。例如,Zheng等人(2015)标注了一个篇章级的中文新闻语料库来识别中文事件的时间关系,他们根据中文的语言特点,提出了一些诸如语义触发词、特殊词、事件论元、事件的共指关系等有效特征来提升识别性能[6]。Li 等人(2015)提出并实现了基于汉英双语的并行语料库中中文文本的时间关系解析引擎TRR[7]。刘增建(2018)进行了临床文本去隐私化、时间和医学实体抽取以及实体时序化等问题的研究[19]。本课题主要涉及医学事件及其时间关系在临床领域的研究现状。在临床文本中医学事件的概念与Timebank中的“事件”非常不同。Timebank语料库广泛应用于时间关系的学习,该语料库是利用TimeML (Pustejovsky et al., 2003)给新闻文本中的事件、时间表达式和事件之间的时间关系进行标注[8]。在Timebank语料库中,“事件”的概念主要由表示状态变化的动词或短语组成。这与“医学事件”的概念不同,后者主要由名词短语和专有名词组成。Timebank语料库提供手工标记语料,包括时态、体、模态、极性和事件类。在使用这些特征的事件之间的时间关系学习以及从Timebank语料库中提取各其他特征方面已经有不少重大成果(Mani et al.,2006; Chambers and Jurafsky, 2008; Lapata and Lascarides, 2006)[9]。Zhou和Hripcsak (2007)做了临床数据进行时间推理的综述。Roberts(2008)等人在生成用于临床文本时间关系推理的标注语料库方面也做了工作[10]。但是这些语料库都不是免费的。Zhou等人(2006)提出了出院小结中医学事件的时间约束结构(Time Constraint Structure, TCS),他们使用基于规则的方法来生成这种结构[11]。
2. 文本可视化研究现状
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。