一、文献综述
(一)国内外研究现状
如今,视频已经成为互联网的主要流量。随着视频采集与显示设备的发展,视频分辨率也越来越高,未经过压缩的原始视频体积巨大,给存储与带宽带来挑战。
降低视频图像存储与带宽需求的有效方法是对其进行有损压缩。过去三十年,视频编码标准已经从第一代的MPEG-1/2/4[1, 2, 3]、H.261[4]和H.263[5]发展到第二代的H.264[6, 7]和AVS1[8],到第三代的H.265[9, 10]、AVS2[11, 12]和VP9[13]等,再到第四代的H.266[14]、AV1[15, 16]和AVS3[17]。现代视频编码标准,大多都利用了视频图像在空域、时域及统计意义的冗余,结合人眼特性,设计了一系列压缩技术,达到了有效降低视频带宽与存储需求的目的。然而,有损压缩给原始视频信号带来了失真,进而影响了主观与客观质量。例如在带宽受限的情况下,一些应用领域如航空航天技术、生物医学工程等,对图像传输的实时性和图像质量都有较高的要求,但由于压缩带来的压缩噪声却是不可避免的,严重影响了后续任务的顺利开展。可见,通过后处理的手段提高压缩视频质量有重要研究意义。
现如今的视频压缩编码标准H.265/HEVC对于压缩图像的后处理主要采用的是环路滤波技术,其包括去方块滤波和像素自适应补偿。其中,去方块滤波包括两个环节:滤波决策和滤波操作;像素自适应补偿技术:通过选择一个合适的分类器将重建像素划分类别,然后对不同类别像素使用不同的补偿值。虽然这些传统方法能够一定程度上消除压缩噪声并提高压缩视频的质量,但由于其中算法的参数是人为设定的,并不一定能够最大限度的挖掘有损压缩图像与原始图像之间的映射关系。近年来,随着深度学习的撅起,在诸多领域中体现了其巨大的潜能。与传统方法相比,深度学习技术具有基于大数据的自行学习的能力,摒弃了传统人工设置的学习特征的方式,并且人工设置的方式效率较低,而深度学习的能力可以从大量的数据中训练获得,从数据中学习某种非线性映射关系以达到适配具体任务。同时,随着训练数据量的增大,深度学习算法的效果、鲁棒性以及泛化能力也会随之增强。
(二)研究主要成果
早在2012年,Jung等[18],提出了一种基于稀疏表示的图像去块方法,使用K-奇异值分解算法从一组训练图像中获得字典,然后利用图像的压缩因子,自动估计误差阈值,再利用所获得的字典进行图像去块。现有的许多算法仅仅适用于在特定的假设下,即特定的噪声大小下进行,然而在大多数应用中,用户只能得到较差的图像,没有办法得到任何关于噪声的数据信息,此时之前算法效率大大降低。之后,Wang等[19]提出一种方法来衡量噪声的大小,然后采用非局部均值滤波器去除量化噪声。该方法首先给出了一个新的度量来评估块伪影,然后应用非局部均值滤波器去除块上的量化噪声。在此过程中,使用具有不同方差的非局部均值滤波器进行去块操作。最终图像是所有用最优参数过滤的块的结合法。近些年,得益于深度学习所发挥的巨大潜能,Dong等[20]受深度卷积网络在超分辨率上的成功启发,利用深度学习技术,设计了一个紧凑且高效的网络,用于无缝衰减不同的压缩伪影。为了满足实际应用的速度要求,通过层分解和大步幅卷积和反卷积层的联合使用进一步加速了所提出的基线模型。这也导致了一个更通用的CNN框架,它与传统的多层感知器有着密切的关系。最后,与基线模型相比,修改后的网络实现了7.5倍的速度提升,几乎没有性能损失。随后,Zhang等[21]设计了一个更加深的神经网络结构DnCNN。将非常深的结构,学习算法和正则化方法用于图像去噪,并在训练的时候使用批量归一化等技术,同时结合残差学习策略以减轻训练深度神经网络的难度,再一次提升了质量。大量实验表明,DnCNN模型不仅可以在几个通用图像去噪任务中表现出高效,而且可以通过GPU计算有效地实现。后来Guo等[22]提出了集合频域和空域信息,双域表示可以充分利用JPEG压缩的DCT域先验知识,这在传统的基于网络的方法中通常缺乏。同时,与容量有限的基于稀疏编码的方法相比,它还可以受益于深度前馈架构的能力和效率。同时使用Adam优化算法和残差学习策略,训练了一个非常深的卷积网络结构。该方法高度准确地消除 了JPEG 压缩图像的伪影。过去几年在应用深度学习来提高压缩图像和视频的质量方面取得了巨大成功。现有方法主要侧重于提高单帧的质量,忽略了连续帧之间的相似性。Yang等[23]研究发现压缩视频帧之间存在严重的质量波动,因此可以使用相邻的高质量帧来增强低质量帧,这被视为多帧质量增强 (MFQE)。其做法是首先借助光流网络,得到相邻帧与当前待增强帧之间的光流场;然后根据该光流场对相邻帧进行运动补偿,最后一起送入后续的质量增强网络。以上方法能够取得显著增益,但也有一些不足。
(三)存在的问题
近年来,基于神经网络的环路滤波给编码器带来了更高的增益,逐渐成为一个受关注的研究方向。但是,神经网络的性能极大程度地依赖其使用的训练数据,使用有限的数据集进行训练存在泛化性不足的问题,通过训练得到一个模型,不仅仅希望它对于已知的数据性能表现良好,对于未知的数据也应该表现良好,也就是具有良好的泛化能力。并且,神经网络通常使用大量参数,有几十万甚至上百万参数,其运行也依赖于高性能的显卡设备辅助进行推断,这带来了巨大的资源开销。
压缩之后的图像及视频存在模糊、细节信息弱化甚至丢失等问题。基于单帧质量增强方法中,由于图像本身的真值并不真实存在,是一个不适定性问题,主要依赖外部训练集学习所得到的先验知识。基于多帧质量增强方法中,视频是有连续的图像组成,在视频的相邻帧中,往往存在着大量的相似却又不完全相同的信息。在增强任务中,这些来自相邻帧的时域信息对于当前帧的质量提升,具有一定的利用价值,通过联合时空域的共同有利信息,充分挖掘质量提升的潜能。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。