基于深度视觉信息的图像分割算法研究文献综述

 2022-11-24 22:29:51

图像分割文献综述

图像分割(Image Segmentation)是图像处理和计算机视觉领域的一个重要课题,涉及将图像(或视频帧)划分成多个片段或对象,其应用领域包括场景理解、医学图像分析、机器人感知、视频监控、增强现实和图像压缩等。研究者们提出了各种图像分割算法。近一段时间,由于深度学习模型在广泛的视觉应用中取得了成功,已经有大量的工作致力于开发使用深度学习模型的图像分割算法,从最早的阈值化、基于直方图的捆绑、区域增长、k均值聚类、分水岭等算法,到更先进的主动轮廓、图割、条件和马尔可夫随机域等算法。在过去的几年里,深度学习网络已经产生了新一代的图像分割模型,其性能有了显著的提高,通常在流行的基准测试中获得了最高的准确率。图1展示了一个深度学习模型DeepLabv3 的样本图像分割输出。

图1:DeepLabV3 对样本图像的分割结果

图像分割可以表述为具有语义标签的像素分类问题或单个对象的划分。目前的分割任务有三种:语义分割、实例分割、全景分割。语义分割是对图像中的每个像素都划分出对应的类别,即实现像素级别的分类;实例分割是目标检测和语义分割的结合,只对图像中的目标进行检测,并对检测到的目标进行分割。相对目标检测的边界框,实例分割可以精确到物体的边缘信息,相对语义分割,实例分割需要标注出图像上同一物体的不同个体;全景分割是语义分割和实例分割的结合,对图像中所有物体和背景都要进行检测和分割,背景区域的分割属于语义分割,而物体的分割属于实例分割。

图3:语义分割、实例分割、全景分割实例

CNN(Convolution Neural Networks)是深度学习社区中最成功且使用最广泛的架构之一,尤其是对于计算机视觉任务而言。卷积神经网络的发展,可以追溯到20世纪60年代初Hubel和Wiesel提出视觉皮层的分层感受野模型(感受野:卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域的大小)。1980年,福岛邦彦在论文《Neocongnitron:A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position》中提出了一个包含卷积层、池化层的神经网络结构(池化:实际上是一种形式的降采样,降低数据的大小,如“最大池化”是将输入的图像划分成若干个矩形区域,对每个子区域输出最大值)。在这个基础上,LeCun提出了LeNet-5,将BP算法应用到这个神经网络结构的训练上,形成了当代卷积神经网络的雏形。

图4:用图形理解感受野概念

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。