一、文献综述
(一)国内外研究现状
神经网络技术于20世纪中期被提出,但由于神经网络需要使用大量的计算资源,所以在当时并未引起广泛关注。随着计算机性能的迅速提高,20世纪后期,神经网络开始进入研究者们的研究范围。直到21世纪初,深层神经网络的出现,使得神经网络的研究走向高峰。在2012年的ImageNet比赛中,AlexNet深度神经网络获得冠军,此后,各式各样的深度神经网络被提出,深度神经网络也逐渐被应用在各个领域里,比如语音识别,机器翻译,图像处理。图像处理领域神经网络的使用尤其多,包括视频图片的超分辨率,视频的插帧等方面。
大数据时代,对视频的传输和存储越来越多,视频编码技术是一种很好的方法去突破带宽有限所带来的传输瓶颈,所以对视频编码技术的研究有重要意义。视频编码技术主要被国际上的一些组织所引领,他们制定了相关的标准,最近几十年来,有许多视频编码标准被提出,如ISO/IEC的MPEG系列、ITU-T的H.26x系列、中国的音视频编码标准(AVS)系列、开放媒体联盟 (AOM)的AV1,他们都在传统混合编码框架的基础上,提升了数百倍的压缩效率。在以上的标准中,帧内预测的改进主要是添加了更多的预测模式,但大多是基于传统的方向预测算法。比如AV1之前的VP9,有10种预测模式,而AV1有56个方向模式。而HEVC相对于H.264的9种模式,增长为33种。
视频编码本质上起源于信号处理理论,包括帧内预测、帧间预测、变换、量化和熵编码技术等,这些技术可以组合形成许多不同的编码方式。帧内预测简而言之就是使用相邻的像素去预测当前块的像素,然后只将预测像素与原当前块像素的差值存储,配合其他编码技术,能大幅减少需要存储的信息量。使用相邻的像素去预测当前块的像素可以抽象为一种回归问题, 故理论上可以结合神经网络。
所以近些年也有不少使用神经网络对帧内预测进行优化的研究,主要包括两个方面,使用神经网络替代帧内预测过程,或使用神经网络进行帧内预测模式的快速选择。预计在下一代视频编码标准中,就会有基于神经网络的编码技术被加入其中。
在神经网络结构的选取方面,国内外的研究中,对于全连接网络,卷积神经网络,GAN网络都有使用,也都取得了不错的效果。但是网络的复杂度也在逐渐加深,对于计算资源的消耗也越来越高。
(二)研究主要成果
研究成果主要从两方面说起,分别是视频编码技术上的成果,将深度学习技术运用在视频编码上的成果。
关于编码技术上的成果,这里主要说明H.264/HEVC。HEVC也采用了混合视频编码框架,但与H.264/AVC相比,它已经有了很多改进。这种改进有一部分要归功于增加的宏块大小。宏块定义为用于压缩计算的图像区域,较大的宏块可以有效地压缩高分辨率的视频。在H.264/AVC中,编码单元是一个固定大小为16x16的宏块, 这些宏块太小,以致于无法高效地播放1080p以上的视频。HEVC引入了编码树单元(CTU)、预测单元(PU)、转换单元(TU)和编码单元(CU)的概念。图像首先被划分为CTU。CTU的大小可以是16x16、32x32和64x64。对于一个CTU,它可以作为一个整体进行编码,也可以被均匀地分为四个CU。CU是最基本的帧间编码和帧内编码模块之一,其大小可以从8x8到64x64,它也可以根据图像的纹理均匀地分为四部分。PU是最基本的帧内预测单元之一,它由CU划分得到,大小从4x4到64x64。TU用于变换和量化。PU中的所有TUs将共享相同的预测信息。TU的大小从4x4到32x32。由于图像具有很强的空间相关性,较小的TU可以减小预测像素与参考像素之间的误差。此外,在HEVC中还将角预测方向数扩展到33个,因为使用更细的预测方向可以提供更准确的预测。除了帧内预测以外,在滤波,变换,熵编码等方面,也有了许多成果,这里不再赘述。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。