基于学习的视频编码关键技术研究文献综述

 2022-08-19 14:39:04

一、基于学习的视频编码技术综述

  1. 国内外研究现状

现今编码标准逐渐呈现“三国演义”的态势。国际主流标准为MPEG和ITU标准。这个标准以针对4K视频的H.265标准为代表,目前正在研发面向8K、VR视频的VVC标准。另一边,Google、亚马逊、思科等公司联合牵头成立的AOM联盟为了打破MPEG的垄断,致力于标准开源化,于是催生了在2018年6月定稿的AV1和正在开发的AV2系列。除了这些之外,我国开发了自己的标准AVS标准。AVS2主要面向4K视频,而新一代的AVS3标准在2019年3月发布了第一版,主要是面向8K与5G结合,预计在国内广泛使用;第二阶段的目标则是超越VVC标准压缩效率。

虽然过去的几十年数字视频编码标准不断在迭代,但这些广泛应用的标准仍然基本上都是沿用了MPEG-I基于块的混合编码框架,即预测编码、变换编码和熵编码相结合。输入的视频序列被划分为图片帧,图片帧被划分为块,块被划分为不同通道(即Y、U、V)。图片帧/块/通道按预先定义的顺序进行压缩,之前压缩的图片帧/块/通道可用于预测以下内容,分别称为帧内预测(块间)、跨通道预测(通道间)和帧间预测(图片间),然后对预测残差进行变换、量化和熵编码,以获得最终的比特流。一些辅助信息,如块划分和预测模式,也被熵编码成比特。熵编码步骤采用概率分布预测。由于量化步骤会丢失信息并可能导致伪影,因此需要对重建的图像帧进行滤波以增强重建帧的质量。滤波可以在环内(在预测下一个图像帧之前)或在环外(在输出之前)执行。此外,为了减少数据量,图片帧/块/通道可以在压缩前进行下采样,然后进行上采样。最后,编码器需要控制不同的模块,并将它们组合在一起,以权衡编码码率、质量和计算速率。

传统方法在统计意义上能够获得一定性能,但为了应付千变万化的复杂的自然场景,编码工具的不断增加让编码器变得十分“臃肿”。人工设计参数的方式也存在着自适应能力有限的固有缺陷,人们开始探索其他的方法对其改进。而随着深度学习在计算机视觉任务上取得了令人瞩目的成就,研究人员开始将视频编码与深度学习方法结合,在帧内预测、帧间预测、变换、环路滤波、熵编码等各种传统编码模块中应用深度神经网络,来帮助提高视频编码效率。2015年以来这一领域的模型和编码方案层出不穷,其中环外或环内的滤波工作占据了大部分。

  1. 研究主要成果

近年来,已经有许多研究工作使用CNN解决环外[1]-[11]或环内滤波[12]-[15]问题,结合传统编码框架HEVC已获得了显著的收益。

  1. 环外滤波

由早期的图像编码后处理的工作,很容易想到将CNN模型应用在解码后的帧上进行质量增强后输出,提高视觉效果。已经有很多工作为HEVC的解码端后处理设计各种CNN模型。

Dai等人[1]提出一个4层的VRCNN,考虑到HEVC多个大小编码块在进行变换和量化,于是在第二层、第三层采用了可变的滤波器大小,而第一层和第四层使用固定卷积核是分别实现特征提取和最终重构的功能。另外,其使用残差学习技术, 与HEVC基准相比,VRCNN实现了亮度分量平均BD-rate降低了4.6%。Wang等人[2]使用10 层CNN 网络DCAD进行环外滤波,该方法在All Intra,Low delay P 与Random Access 下,BD-rate 分别降低了5.0%、6.4%与5.5%。Yang等人[3]提出分别为I帧和P帧训练不同的CNN模型,相较于单一模型获得了一些增益。Li等人[4]提出将一些边信息传送给解码器,以便从以前训练过的一组模型中为每帧选择一个模型。此外,Yang等人[5]提出为了在后处理过程中利用帧间的相关性,可以通过将多个相邻帧输入到CNN来增强帧的后处理效果。Wang等人[6]也考虑到帧间的相关性,但使用的是多尺度卷积LSTM。He等人[7]建议将块划分信息连同解码帧一起输入到CNN中。Kang等人[8]也将块划分信息输入到CNN中,设计了多尺度网络。Ma等人[9]向CNN中输入帧内预测信号和解码后的残差信号。Song等人[10]将QP和解码帧一起输入到CNN中。在[11]中提出了一个不同的工作,它没有直接增强解码帧;相反,他们提出计算编码器端的压缩残差(即原始视频减去解码视频,以区别于预测残差),并训练自动编码器对压缩残差进行编码并发送到解码器端。根据报道,他们的方法在特定领域的视频序列上表现良好,例如视频游戏流服务。

  1. 环内滤波

与环外后处理相比,将基于CNN的滤波器集成到编码环路中是一项更具挑战性的任务,因为滤波后的帧将作为参考,并会影响其他编码工具。Park和Kim[12]训练了一个三层CNN作为HEVC的环路滤波器。他们为两个QP范围(20–29和30–39)分别训练了两个模型,并根据每个帧的QP为其选择其中一个模型。测试时将CNN应用在HEVC的在去方块滤波器后,并关闭了SAO。他们还设计了两种方案来决定是否将CNN模型施加在某帧重建图像上。第一种方案,基于图片顺序计数(POC)来决定是否应用于指定的帧,比如只增强单数帧;另一种方案,滤波器针对每个帧进行测试,如果施加CNN提高了质量则应用它,同时需要将一个二进制的标志发送给解码器,解码端同步以便能正确解码。Meng等人[13]使用LSTM作为环内滤波器,该滤波器在HEVC中的DF之后和SAO之前应用。该网络以块划分信息和解码后的帧作为输入,并结合平均绝对差值(MAE)和多层级结构相似性(MS-SSIM)作为评价标准训练模型。Zhang等人[14]提出在SAO后施加残差高速公路网络(RHCNN),用于HEVC中的环内滤波。他们分别为I、P和B帧训练不同的RHCNN模型,并且还将QPs划分为多个范围,为每个范围训练一个单独的模型,最终在AI,Low-Delay(LDP)和random-Access (RA)配置下,BD-rate分别降低了5.70%,5.68%和4.35%。不过高达334万的参数量,即使经过GPU加速,其编码时间也比HEVC基准的编码时间长了两倍以上。Dai等人[15]提出一个叫做VRCNN-ext的深层卷积神经网络用于环内滤波,他们进一步地将CNN模型的开关控制限制在CTU级别和CU级别,更加精细化。

  1. 发展趋势

之前大部分的工作集中在环外滤波做后处理上,但近几年环内滤波的相关工作逐渐开始变多。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。