文献综述(或调研报告)(2000字以上):
在目标检测任务中,主干网络的选择往往对准确率和检测速度有很大影响。目前,比较常用的主干网络主要有AlexNet[1],ZFnet[2],VGG16[3],ResNet-101[4]等。
- AlexNet
AlexNet是获得2012年ImageNet竞赛冠军的网络,其以227*227的RGB图像作为网络输入,包括5个卷积层和3个最大池化层,以及最后的3个全连接层。AlexNet在设计上第一次采用了ReLu(f(x)= max(0,x))作为激活函数,并验证其在较深的网络上性能超过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度消失问题。另外,在解决过拟合问题时,其引入了以下几种方法:一是引入Dropout机制,即随机忽略一部分神经元,这也达到了同时训练多个架构的目的。但是其训练至收敛所需要的迭代次数是普通网络的2倍左右(当神经元随机失活的概率为0.5时)。二是为局部神经元的活动创建了竞争机制,即局部响应归一化,使得其中响应比较大的值变得相对较大,并抑制其它反馈较小的神经元。三是重叠池化,即步长比池化核的尺寸小,这样池化层的输出之间会有重叠和覆盖,提升了特征的丰富性。四是数据增强,即随机的从256*256的原始图像总截取224*224大小的区域,及其水平翻转的镜像,相当于增加了2*(256-224)^2=2048倍的数据量。AlexNet为之后的卷积神经网络提供了一定的基础,但它显然也存在一些问题,比如分类准确率较低等问题。
- ZFnet
ZFnet是2013年ImageNet竞赛的分类任务冠军,它通过使用反卷积对CNN的中间特征图进行可视化分析,找到了提升模型的方法,微调Alexnet网络提升了表现。相比于AlexNet,ZFnet使用了更小的卷积核和步长,11*11的卷积核变成了7*7的卷积核,步长从4变成了2. 另外,通过可视化发现第一层的卷积核影响大,于是对第一层的卷积核做了规范化,如果RMS(Root Mean Square)超过0.1,就把卷积核的均方根normalize为固定0.1。但其进步主要体现在引入了特征可视化,在性能上提升不大。
- VGG16
VGG(very deep convolutional neural network)发现要增加物体识别的准确度,除了可以使用更小的感受野和步长,和更多的图片进行训练外,还可以通过增加网络的深度取得良好的效果。而且3个3*3的卷积层在原始图片上的感受野相当于一个7*7的卷积层,但是所需参数会更少,同时增加了非线性。此外,此模型证明了归一化层无益于增加图片分类的准确性,所以去掉了无用的归一化层;并利用池化层来处理不同大小的输入。在测试阶段,此模型采用了多分片(分别在图片的4个角和中心取大小为224*224的片段及其水平翻转作为输入)和多尺度检测联合,并对最终结果取平均,使检测准确率提升。VGG16是在目标检测中作为主干网络使用的较为多的一个VGG版本,其以224*224的RGB图片作为输入,包括13个卷积层和5个最大池化层,在此之后,还有3个全连接层和一个soft-max分类层。此模型在ILSVRC-2014上达到了7.3%的错误率(采用7个模型组合),并在之后的测试中,使用2个模型集成,错误率进一步下降到了6.8%。
- ResNet-101
VGG网络中发现随着神经网络的层数增加,其能够提取到不同层的特征越丰富。并且,越深的网络提取的特征越抽象,越具有语义信息。但是如果对于原来的网络,只是简单地增加深度,可能会导致梯度弥散或梯度爆炸的问题。加入正则化层可以解决梯度弥散问题。为了解决梯度消失问题,[4]中提出了一种新型的网络架构,命名为ResNet(残差网络)。其提出在深度网络后面加入部分恒等映射层,这样模型就退化为浅层网络。其通过学习残差函数,当时,即为恒等映射。残差学习通过前向神经网络和shortcut的连接,实现了对梯度流向的管理,使我们可以采用更深层次的网络,同时不会带来梯度退化问题。是目前表现性能较好的一个主网络。
在目标检测的研究中,目前主要分为两阶段目标检测和单阶段目标检测。多阶段目标检测中较为经典的有R-CNN[5]、Fast R-CNN[6]、Faster R-CNN[7];单阶段目标检测中,主要有YOLO[8],SSD[9]。
多阶段目标检测,主要是分为区域建议和对给定的区域进行分类和位置回归。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。