多模态网络信息语义特征分类研究文献综述

 2022-11-28 17:33:06

文 献 综 述

1 研究背景

随着网络化和数字化的快速发展,互联网信息不仅规模扩大,而且还存在着十分广泛、错综复杂的交叉关联,即各种类型信息源之间存在着或强、或弱的内容跨越和语义关联。同时,信息传播也从文字、图像、音频、视频等单一媒体形态逐步过渡到相互融合的多种媒体形态。不同模态数据存在相容互补性,对文本、图像等多种模态的信息进行语义表示,发现不同模态的语义特征的潜在语义相关性,对于澄清仅考虑单模态难以明辨的语义可以起到积极的促进作用。因此,通过多模态语义特征分类研究,使得多模态网络资源展现出一定的关联性与规律性,提升多模态网络资源的有序性,满足人们对信息处理与获取的更高需求,成为了一个非常有意义的课题。

分类学习就是将待分类的数据分别打上预定义的类别标签,它是多媒体数据智能化处理基础而又关键的步骤。常见的分类方法有支持向量机(SVM)、判别分析、逻辑回归、神经网络、随机森林和Boosting 集成等。多模态数据分类要求能够挖掘不同模态数据间的潜在信息,从而提供与单模态数据分类相比更为可观的准确性。此外,将一些在单模态下表现良好的算法应用于多模态数据的结果很可能是平庸的,并且会由于不同模态数据之间的非线性关系而不能达到用户的精度要求。因此,挖掘多模态数据间的隐藏语义,完成多模态数据的混合分类已经成为一个前沿的研究课题。

知识图谱是有效整合并利用信息的高效方式。构建跨模态知识图谱,不仅可以提供跨媒体语境中语义关联分析和认知级推理所需的可计算知识表示结构,也为跨媒体智能化和多样化应用提供了必要的理论和技术保障。

2 知识抽取技术研究现状

知识抽取又称为实体识别(Entity Recognition),旨在从信息源中自动识别出命名实体(概念),实体识别的质量对后续的知识获取和质量有直接的影响。实体识别通常采取两种方法,一种是用户本身有一个知识库,可以使用实体链接将文本中可能的候选实体链接到用户的知识库;另一种则是用户本身没有知识库,需要使用命名实体识别技术来识别文本中的实体[1]。近年来学术界和业界就知识抽取提出了很多方法,谭鹏许等[2]提出了一种利用改进的 k-contextual 树自动机推理算法的信息抽取技术。Guo[3]等人研究了一种半监督的实体关系提取方法,在传统的触发词提取方法的基础上,提出了一种先进的触发词提取方法(ATW),该方法更加灵活、准确,有效地缓解了实体关系提取任务中的语义漂移问题;Zheng[4]等人提出一种混合神经网络模型来提取实体及其关系,而不需要任何手工制作的特征,该混合神经网络分别采用基于双向LSTM的编码器-解码器实现了实体提取模块,采用CNN模型实现了关系分类模块,其中实体抽取模块中提取到的实体及其上下文信息会进一步传递给关系分类模块,用来提高关系分类的性能;Li[5]等人提出了一种神经联合模型来同时提取生物医学实体及其相互关系,可以缓解管道模型导致错误传播的问题;Zheng[6]等人提出了一种新的标记方案,将联合提取任务转化为标记问题,该方法优于现有的流水线学习和联合学习方法;Li[7]等人使用基于神经网络的多任务学习方法来探索多个生物医学关系提取任务之间的相关性,构建了一个全共享模型(FSM)和一个共享私有模型(SPM),并进一步提出了一个基于注意力的主辅助模型(Att-MAM);孙僖[8]在经典的字粒度Bi-LSTM-CRF命名实体识别模型基础上,构建了一个基于注意力的中文词信息增强模型,并针对汉字的特点提出了一种字形特征融合方案。Giannis B[9]等人提出了一种联合神经模型,使用一个CRF层将实体识别任务和关系提取任务建模为一个多头部选择问题,可潜在地为每个实体标识多个关系,不需要任何人工提取特征也不需要任何外部工具,同时进行实体识别和关系提取。

3 基于CNN的图像识别研究现状

目前图像语义研究的难点主要是语义鸿沟问题,即由于计算机获取的底层视觉信息与用户对图像理解的高层语义信息不一致而导致的低层特征提取和高层检索需求之间的距离。这是图像语义理解面临的根本障碍,其根源之一就是图像本身所固有的多义性。

基于CNN的图像特征,本质上是一种学习出的特征表示,它通常以图像所反映的语义内容为监督信息,以图像的原始像素为输入,以一种端到端的形式学习能够表示图像高层语义的特征。CNN最早是由纽约大学的Yann Lecun等人[10]提出,并最早应用于手写体识别任务。然而,由于受制于计算机的计算能力和图像的标注样本,CNN在当时并没有引起广泛关注。2006年之后,随着深度学习[11]的提出和计算能力的提升,神经网络重新回归人们的视野。

Oquab等人[12]提出了Transfer CNN学习框架。该方法首先利用来自ImageNet的单标签图片预训练CNN的网络参数,并将网络参数迁移到多标签图像分类网络当中,即利用预训练网络的参数对多标签网络参数进行初始化。进而利用物体在图像中的位置信息,抽取物体所对应的图像块,并用于训练目标网络。Wei等人[13]提出了一种Hypotheses-CNN-Pooling(HCP)的学习框架。HCP将多个来自多标签图像的物体框(Hypotheses)输入到一个共享的CNN当中。这些Hypotheses通过共享的CNN各自的类别概率分布向量。最后,HCP在共享网络的末端利用最大化池化操作将每个Hypothesis预测得出的类别概率分布向量合并为该多标签图片的最终预测结果。Wang等人[14]基于CNN特征和SVM方法提出了一种基于积极学习的图像分类分法,可以有效降低深度学习的计算代价,并在多标签图像分类任务上获得令人满意的性能。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。