基于深度学习的语义分割方法文献综述

 2022-11-30 14:35:09

毕业设计的题目为基于深度学习的语义分割方法,综述包含几个部分,第一部分分别总结什么是语义分割和深度学习。第二部分介绍现有的方法和模型,并且简单的叙述了这些方法的特点,所采用的与别的模型不同的方法。第三部分介绍现在实现语义分割的深度学习方法用的技术。第四部分介绍这些方法一般使用的训练集有哪些,并且介绍了评价一个网络的指标。

  1. 语义分割与深度学习的概念

语义分割就是这个题目所要解决的问题,而深度学习是这个题目所使用的方法。

语义分割,属于计算机视觉的范畴。从结果上来看是将一幅图片中的不同种类的物体分割出来,即带有语义的图片分割;从实现上来看,是要计算机在像素级别识别图像,标注出每个像素所属的对象类,从而预测出图片中的每个像素是哪个类(而不是分割一种类出来或者只输出判断这个图片属于某一类概率(比如CNN输出的特征向量))。语义分割本题目是为了应用在智能车辆上,为了给车辆实时的提供感知数据,所以要做到准确和效率的权衡。

深度学习是属于机器学习的一个分支,深度学习是一种模拟人脑的机制来处理数据,主要在图片、声音等领域。在图像领域,已经有一定的发展,从智能判断图片到现在的判断像素(语义分割),而在语义分割上的发展下面叙述。

  1. 现有的方法与模型

在深度学习应用到计算机视觉领域之前,用的是比较传统的机器学习方法Random Froest based classifier或Texton Forest方法,这两种都是用像素级决策树来分类。之后发展到深度学习,在14年FCN[2]全卷积网络出现之前,均是对每个像素根据其周围的像素进行分类,也就是CNN卷积神经网络方法。而在FCN方法出现后,解决了CNN的全连接层的问题。而后又出现了编码器-解码器架构[3]和空洞卷积方法解决了池化层高度抽象的问题。还有用CRF改进分割效果等。当然现在这些比较成功的架构都是建立在FCN之上的。我们着重参考的模型从FCN开始。FCN是在2014年被Long等人[2]提出,(论文是2015年发表的)在CNN的基础上增加了三种技术,全连接替换为卷积层,加入了向上采样、和解决粗糙输出的跳过层。还有DeepLab v1用CRF细化输出。2015年的SegNet,引入了编码器-解码器结构,加入了Batch-Normalisation层加快学习速度。ResNet提出用残差连接解决深度加深而准确度下降的问题。在2016年的RefineNet中加入ResNet-101模块,利用残差链接和空间金字塔池化(spatial pyramid pooling)[12]实现了高性能,而且提出了多路细化网络[5]。还有FRRN的双处理流等等。继FCN全卷积网络出现后,有相当多的模型架构,都在语义分割领域做出了贡献,而且现在语义分割的目标是可以权衡精准度和效率的关系,可以做到实时运行并且要有足够的精准度,有部分网络已经可以实现比如ENet和[1]。

  1. 实现语义分割的深度学习所需要用的技术

到目前为止的深度学习网络中用到了很多技术,下面列举出那些在CNN的值得参考的技术。

卷积技术convolution,在神经网络中的卷积有别于在概率论中所学的卷积公式,这种卷积体现在网络中是卷积核和输入窗体内对应元素相乘相加,卷积可以从图片中提取出特征,而这种特征的就体现在卷积核上,CNN网络的核心就是训练出那些足以提取物体特征的卷积核。

池化,是一种向下采样方法。一般有两种,分别是Max-pooling和avg-pooling,池化可以压缩数据,特征降维,减小过拟合的作用。比如Max-pooling的方法就是选出窗体内最大值即可。

向上采样,比如反卷积,反池化,主要是用来恢复成原图片的分辨率。

跳出层,这是为了解决粗糙输出的问题,就是跳过之后的卷积,而直接进行向上采样反卷积,达到特征混合的效果。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。