面向关联噪声的鲁棒深度跨模态检索文献综述

 2022-11-24 22:27:47

开题报告

一、文献综述

1.跨模态检索的定义

在A Comprehensive Survey on Cross-modal Retrieval[1]中,作者给出了跨模态检索(Cross Modal Retrieval)的定义:将一种类型的数据作为查询去检索另一种相关类型的数据。对不同类型(different type or different modality)的数据的定义。在文章Multimodal Machine Learning: A Survey and Taxonomy[2]中,作者认为目前有主要的3种模态(modalities),分别是自然语言(写和说等)、视觉信号(图片和视频等)以及声音信号(对声音的编码以及韵律等)。例如一个使用者使用文本去检索相关图片或视频)。

2.研究现状

跨模态检索在方法上主要分为两大类,一类是实值表示学习(real-valued representation learning),另一类是二值表示学习(binary representation learning),也称为跨模态哈希方法。实值表示学习直接对从不同模态提取到的特征进行学习;而二值表示学习是对从不同模态提取到的特征先映射到汉明二值空间,然后在此空间中进行学习。

2.1 实值表示学习

在Multimedia Content Processing through Cross-Modal Association[3]中,作者提出了一种Cross-modal Factor Analysis(CFA)的方法来完成对语音和图像序列进行检索。这是一种无监督学习的方法。

A New Approach to Cross-Modal Multimedia Retrieval[4]主要对文本和图片之间的检索进行研究,作者提出了一种CCA方法,利用典型相关分析的方法(canonical correlation analysis)用来学习文本和图片之间的相关性。大概方法就是将文本和图像从各自的原本的空间映射到CCA空间,然后利用距离(L1 距离和L2距离)来对文本和图像的相似性进行刻画。这是一种无监督学习的方法。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。