- 文献综述(或调研报告):
深度学习[8] 是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。在深度学习科学诞生和发展的60年历程中,不断有更加先进的学习模式和算法被使用。其中误差逆传播算法(BP算法)[9] 是深度学习的思想基础,该算法提出的神经网络采用将误差逆向传播的算法进行训练,通过反向传播调试网络的权值和阈值,使得误差平方和最小。卷积神经网络[9] 作为深度学习在图像处理领域中的里程碑式算法,其减少了图像前期预处理这一步骤,将原始图像直接作为输入,减少了算法耗时。人工神经网络[10] 是深度学习所有研究的基础,它主要模仿动物神经网络行为特征,之后进行分布式并行信息处理,它的主要特点是:大规模进行并行处理数据、进行分布式存储、具有弹性拓扑结构、高冗余性以及非线性运算等。目前比较常见的几种神经网络模型是:BP神经网络、RBF神经网络、ART神经网络等。
近年来,深度学习在计算机视觉中扮演着极其重要的角色,其具有高效的自动特征提取功能,通过对低层次的特征进行组合,组成高层次的特征,并得到不同特征之间的空间相关性,这使得深度学习算法在提取图像的全局特征信息和局部特征信息方面具有很大的优势。基于这些特点,深度学习也为图像语义分割[1] [5] [6] [7] 问题提供了新的思路。
(一)图像语义分割算法(基于深度学习)
图像语义分割技术一直是计算机视觉领域中一个极具挑战性的任务,在图像理解中起着极其重要的作用。图像语义分割集合了图像分割与图像识别两个领域,其目的是能精确地分割目标物体,并对图像中的每一个像素点赋予一个语义标签。不同于图像分类和目标检测技术,在开始图像分割处理之前,必须明确语义分割的任务要求,即理解语义分割的输入和输出。
现在常用的图像语义分割技术可分为传统型与基于深度学习型,其中基于深度学习的图像语义分割技术的主要思路是,不需要人为设计特征,直接向深层网络输入大量原始图像数据,根据设计好的深度网络算法,对图像数据进行复杂处理,得到高层次的抽象特征,而输出的不再是简单的分类类别或者目标定位,而是带有像素类别标签的与输入图像同分辨率的分割图像。而目前比较常用的基于深度学习的图像语义分割算法有FCN、SegNet、U-Net、PSPNet、MASK R-CNN等。
FCN(全卷积网络)[9] 是第一个基于深度学习的图像语义分割算法,它提出了一种端到端的做语义分割的方法,该算法是建立一个全卷积神经网络,该网络的输入可以是任意大小的图像,并输出与输入图像等大的图像。FCN算法将传统CNN算法中的全连接层转化成一个个的卷积层,它将图像进行像素级的分类,从而解决语义级别的图像分割问题。
SegNet[13] 是建立一种新奇的有实践意义的深度全卷积神经网络结构,它可以用于逐个像素的语义分割。该网络结构拥有的核心分割引擎包含一层编码网络:本层网络使用池化层逐渐缩减输入数据的空间维度,一层解码网络:通过反卷积层等网络层逐步恢复目标的细节和相应的空间维度,两层网络之间通常存在直接的信息连接,来帮助解码器更好地恢复目标细节。除此之外还有一层像素级别的分类网络层。本算法是第一次在语义分割中应用编码器-解码器的结构。
PSPNet(金字塔场景解析网络)[11] 是一种基于语义分割的场景解析算法,本算法建立一种金字塔形的网络结构,该网络基于CNN算法。其他语义分割算法可能由于形状、颜色相似而降低语义分割准确度,而本算法将结合上下文信息,进行逻辑筛选,最后得出较为准确的结果。
U-Net[10] 是在FCN算法基础上进行改进,它将多通道的卷积层与特征金字塔网络结构结合起来。其他的语义分割算法想要进行训练,往往需要众多的数据,而本算法进行改良后只需利用少量数据进行训练测试,多用于医学方向。
MASK R-CNN[12] 构建的网络结构没有特别的适用对象,它是一种通用性分割架构,本算法以Faster RCNN为原型进行改良,增加了一个分支用于分割任务,它的识别速度较慢,很难分割识别叠加物体图像。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。