基于GAN网络的图像风格迁移文献综述

 2022-08-12 11:19:59

一、文献综述

(一)国内外研究现状

图像风格迁移(Neural Style Transfer NST)指操纵数字图像或视频以采用另一幅图像的外观或视觉样式的软件算法。图像风格迁移最早产生于计算机图形学中的非照片级真实感渲染(Non-photorealistic rendering NPR)领域,基于纹理合成算法的图像类比(Image Analogies)和图像缝合(Image Quilting)是其中具代表性的算法。传统的图像风格迁移算法有一个共同的思路特征:通过对某种风格的图像数据进行分析从而建立数学模型,对需要风格迁移的图像进行修改从而使其更好的符合预先建立的模型。该种方法在图像迁移中能够产生较为不错的效果,但是存在一个极大的缺陷便是:一个程序只能承担某种风格或场景的图像迁移,并且手工建模的方式较为复杂,因此基于传统图像风格迁移算法的实际应用较为有限。因此图像风格迁移研究受到众多学者关注,图像风格迁移领域的任意风格迁移和模型建立在过去几十年里成为计算机视觉领域的重要课题之一。

近年来,随着深度学习领域研究的深入,神经网络被广泛应用于建立特征提取模型。在早期基于神经网络的特征提取模型中,牛津大学Visual Geometry Group小组(2014)提出的VGG19卷积神经网络得到了广泛的应用,VGG19会利用已输出的特征作为输入进一步提取更复杂的特征,不断自动训练直到获取的特征能够准确识别物体,VGG19模型下的特征提取精度极大的超越了传统算法,而后深度学习也逐渐取代了传统算法成为特征提取最重要的工具。随着VGG19的出现,图像风格迁移领域需要手工建模的缺陷也得到了解决,Leon A. Gatys在2015年发表的两篇文章中利用VGG19提取局部特征,以格拉姆矩阵进行相关性运算建立了风格迁移所需的数学模型,从而避免了手工建模的问题,并且在图像风格迁移获得了显著的效果。

Leon A. Gaty经过研究发现图像风格能够通过纹理来进行描述,他区分图像为图像内容与图像风格(纹理)两部分,将在建立数学模型时使用过的VGG19神经网络模型产生的局部特征作为近似的图像内容,利用内容与风格在神经网络中的激活配对进行组合完成图像风格的迁移,实现了最早基于神经网络模型的图像风格迁移。自从Gatys等人提出基于神经网络的图像风格迁移的开创性工作后,越来越多的学者在这方面进行了研究和探索。近年来随着计算机硬件水平与深度学习领域研究的不断精进,图像风格迁移主要区分为两种实现思路:依靠卷积神经网络(Convolutional Neural Networks CNN),先分别进行迁移图像与目标风格图像的特征提取以及特征综合,最后完成新图像生成;基于生成式对抗网络(Generative Adversarial Networks GAN),通过模型生成器不断生成图像数据,鉴别器不断更新参数从而识别图像数据真伪,最终实现生成同风格图片的目标。

(二)研究主要成果

基于卷积神经网络的图像风格迁移领域中,图像风格迁移的效果主要表现为绘画风,即使输入数据为写实图像,在输出时也会产生不可避免的失真。李飞飞团队(2016)将图像风格训练于图像的前馈网络,并实现了实例归一化,极大提升了前馈风格迁移模型的质量以及迁移速度。而在图像风格迁移中针对单张图像添加风格的算法对于计算的要求较高,基于前馈网络的速度提升也导致某一单一网络只能固定一种单一图像风格,原本算法适应任何图像风格的灵活性受到了一定损失。谷歌的团队(2016)设计了一种增强型的风格迁移新算法,实现基于单个网络的多种风格实时迁移。在Gatys研究的基础上,Fujun Luan(2017)等人引入了将风格迁移限制为局部区域色彩空间上的仿射变换的约束条件,并将其表示为完全可微的参数,从而消除了风格迁移中输出写实图像时产生的失真畸变。

生成式对抗网络(Generative Adversarial Networks GAN)则是近年来无监督学习领域最具前景的算法之一。网络由一个生成模型(Generative Model)和一个鉴别模型(Discriminative Model)构成,生成模型从潜在空间随机取样作为输入,并尽量模仿训练集中的真实样本数据作为输出结果。鉴别模型则将真实样本以及生成模型生成的假样本作为输入,输出需要将生成模型生成的假样本从真实样本中尽可能鉴别出。生成模型与鉴别模型不断对抗并调整参数,最终生成模型的输出图像达到鉴别模型无法鉴别真伪的精度。GAN常被运用于生成以假乱真的图像,而这一过程也同样适用于图像风格迁移中。Phillip Isola等人(2016)提出的Pix2Pix模型在传统GAN模型的基础上采用了cGAN的思想,在生成模型的输入中不仅输入噪声,还会输入一个条件(condition),从而生成的输出会受到具体的condition的影响。当condition是一副图像时,则生成的假样本图像也与condition产生了对应关系,进而实现了Image-to-Image的过程。Pix2Pix是严谨的一对一映射结构,因此当输入数据与训练集数据存在较大差异时,生成结果会存在误差。虽然对于数据集的要求过高,但Pix2Pix模型也启发了后续研究人员对于GAN领域图像风格迁移的研究。为了解决训练数据集收集困难的问题,朱俊彦团队(2017)构建了CycleGAN神经网络模型。CycleGAN由两个镜像对称的GAN网络构成,GAN间共享两个生成模型并各自带有一个鉴别模型。CycleGAN将输入图像通过第一个生成模型将来自风格域A的图像转换为目标风格域B的图像,再将生成图像通过另一个生成模型将图像重新转换为风格域A的图像,从而构成了一个环形网络。CycleGAN不需要成对图像作为训练集,只需要两种不同风格的数据集即可完成图像风格迁移的工作。但是,Casey Chu等人(2017)研究发现CycleGAN经过训练为了在鉴别模型中获得高分数,会将输入图像中一些不适用于风格相似性的部分隐藏,但在第二个生成模型中隐藏的部分又会被复原出来,这也就导致了模型对于对抗样本攻击的抵抗力较差。

根据CycleGAN的设计思路,若是希望建立多个风格域之间的关联,则每两个域之间都需要两个生成模型,这对于模型训练会造成很大的压力。Yunjey Choi等人(2017)设计的StarGAN则希望只用一个生成模型实现所有风格域之间的转换。StarGAN的鉴别模型会将输入图像进行真伪鉴别并分辨出输入图像所属的风格域,而生成模型则将目标风格域和输入图像作为输入,输出则是符合目标风格域的图片。StarGAN的训练架构与CycleGAN具有一定相似性,目标域和图像数据被输入到生成模型中,生成模型产生的伪造图像同时被传递给鉴别模型和和生成模型。鉴别模型鉴别图像真伪以及所属风格域,而生成模型则以原始风格域作为目标域重新生成图像,但StarGAN仅使用一个生成模型便完成了CycleGAN两个生成模型的工作。而在2020年的IEEE国际计算机视觉与模式识别会议上,Yunjey Choi团队发表了StarGANv2,在原模型的基础上无需预先定义风格域标签并实现了高精度的图像风格间的迁移。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。