【杂谈】那些底层的图像处理问题中，GAN能有什么作为？

2024-06-22 02:12:12

1 GAN与图像降噪

图像在产生和传输过程中都会受到噪声的干扰，因此图像降噪是一个非常基础的问题，生成式模型GAN在捕捉噪声的分布上有天然的优势。

有三AI知识星球-网络结构1000变

GAN-CNN Based Blind Denoiser

基于深度学习的图像降噪面临的一大难题就是没有成对的真实噪声和无噪声数据，GCBD(GAN-CNN Based Blind Denoiser)方法使用GAN从真实带噪声图像中采集噪声，获得真实的成对图用于降噪模型训练。

作者/编辑言有三

如上是整个框架，输入是“不成对”的有噪声图像(Noisy Images)和无噪声(Clean Images)图像，然后使用噪声块提取网络(Noisy Block Extraction)从噪声图像中进行噪声建模和采样，和干净的无噪声图像一起合成成对的训练数据，最后用Dncnn框架进行训练。

上图是生成对抗网络的具体配置。x~是生成的噪声，x是采集的噪声，生成的噪声如下，非常的真实。

最后真实的噪声和生成的噪声都会被使用和干净图像一起产生图像对，下图展示了一些实验结果，可以看出结果不错。

真实噪声和无噪声图像的获取是将深度学习应用于降噪问题的关键，基于GAN等无监督模型的方式值得重点关注。

参考文献

[1] Chen J, Chen J, Chao H, et al. Image blind denoising with generative adversarial network based noise modeling[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 3155-3164.

2 GAN与图像去模糊

由于图像获取过程中设备的晃动，对焦不准或者目标的移动速度过快，经常会造成图像模糊，去模糊也是一个很常见的基础图像问题。由于可以避免未知模糊核估计以及幅度较大的模糊去除，生成式模型GAN在其中也大有可为。

有三AI知识星球-网络结构1000变

Deblur-GAN V1/V2

DeblurGAN是第一个基于GAN的去模糊框架，它将去模糊当作一个图像翻译问题，避免了模糊核的估计，取得了很不错的运动去模糊效果。

作者/编辑言有三

上图是整个框架的示意图，Blurred就是模糊的输入图，它经过生成器Generator生成去模糊的结果图Restored，再与真实的清晰图Sharp比较计算损失函数。

损失包括两部分，分别是感知损失perceptual loss和对抗损失(WGAN loss)。感知损失的计算基于VGG模型特征空间，对抗损失则采用了WGAN的损失。

如上是生成器的具体结构，可以看出包含2个下采样卷积，9个残差模块，2个上采样反卷积。

上图展示的是一些结果，第一列是原图，中间一列是Deblur GAN的结果，第三列是真实清晰图像，可以看出对于运动模糊的场景，确实能取得很好的去模糊效果。

后续作者们对DeblurGAN框架进行了改进，提出DeblurGANv2[2]。

DeblurGANv2使用FPN作为生成器的核心模块，提升了生成模型的性能。判别器则使用了最小二乘损失，从全局与局部两个尺度方面进行度量。

作者认为对于高度非均匀的模糊图像，在包含复杂目标运动时，全局尺度有助于判别器集成全图的上下文信息，从而使得相比较于DeblurGAN能处理更大更复杂的真实模糊图片。

参考项目：https://github.com/KupynOrest/DeblurGAN

https://github.com/TAMU-VITA/DeblurGANv2

参考文献

[1] Kupyn O, Budzan V, Mykhailych M, et al. Deblurgan: Blind motion deblurring using conditional adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8183-8192.

[2] Kupyn O, Martyniuk T, Wu J, et al. Deblurgan-v2: Deblurring (orders-of-magnitude) faster and better[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 8878-8887.

3 GAN与图像增强

严格来说图像增强包含上述的降噪，去模糊问题，此处所说的更多是聚焦于对图像颜色的全局和局部调整，包括亮度，色调等，GAN可以学习到丰富的调整模式。

有三AI知识星球-网络结构1000变

GAN-DSLR

GAN-DSLR是一个基于GAN的图像增强模型，它使用GAN来改进图像增强模型在颜色和纹理上的效果。

作者/编辑言有三

上图展示的是模型的结构，可以看出包含了三个网络，一个是图像增强网络(Image enhancement network)，一个是判别网络(Discrimator network D)，一个是特征保持网络 VGG-19。训练数据集包含低质量和高质量的成对图，下面是iphone和单反相机的案例。

图像增强网络(Image enhancement network)就是GAN 的生成网络，输入为三通道的图像，首先经过4个残差 block，然后经过三个卷积层，最后经过一个卷积层输出三通道的图像，也就是增强后的图。两种损失函数包括颜色损失lcolor和平滑损失ltv，其中颜色损失lcolor需要真值图像与网络输出图像一起计算，这就是一个重建损失，可以使用标准的欧式距离。

ltv就是标准的平滑损失，它可以实现整体上对图像进行微小的平滑，有效去除椒盐等噪声。

判别网络(Discrimator network D)的输入由增强网络生成的图像与真值一起融合生成。融合的方式有多种，作者采用了逐个像素加权求和方式。判别网络有5个卷积层，一个全连接层，输出2维的概率向量。损失函数为交叉熵损失，它也被称为纹理损失(textures loss)。

预训练的VGG网络被用作特征保持网络，使用该网络对产生的图像和真值提取高层特征，然后计算内容损失，计算使用标准的欧式距离，这在图像超分辨，风格化等任务中都被广泛使用。

使用开源代码https://github.com/aiff22/DPED，下图展示了一些增强结果案例：

从结果可以看出效果非常明显，感兴趣的读者可以自己尝试。

参考文献

[1] Ignatov A, Kobyshev N, Timofte R, et al. DSLR-quality photos on mobiledevices with deep convolutional networks[C]//Proceedings of the IEEEInternational Conference on DSLR-quality photos on mobile Computer Vision.2017: 3277-3285.

4 GAN与图像超分辩

越高的分辨率能获得更清晰的成像，人们对分辨率的追求永无止境。与之同时，很多的低分辨率老照片需要修复，具有很大的人文社会价值，GAN已经在超分辨率领域颇有建树。

有三AI知识星球-网络结构1000变

SRGAN

SRGAN(super-resolution generativeadversarial network)是第一个基于GAN的图像超分辩模型，能够取得4倍的高分辨率放大。

作者/编辑言有三

早期的基于CNN模型的超分辨率框架如SRCNN，ESPCN都使用MSE损失作为优化目标，它们能取得较高的PSNR和SSIM指标，但是存在结果过于平滑的问题。全局的MSE指标较小并不能保证局部细节的清晰度，较大的MSE指标也并不意味着结果差，比如图偏移一个像素后与原图的MSE可能很大，但是感知结果非常相近，因此人眼对结果的感知评价并不完全与这些指标相符。

为了获得与人眼感知更加相符的结果，研究者从风格迁移等任务中进行借鉴，使用了感知损失替代MSE损失，它就是基于特征空间的欧式距离。

在文[2]中将SRCNN模型[1]的像素损失改为感知损失后，显著提高了视觉效果，如下图的倒数第二幅图与最后一幅图的比较。

另外，随着生成对抗网络GAN的发展，生成器和判别器的对抗学习机制在图像生成任务中展现出很强大的学习能力。

基于以上两个特点，SRGAN[3]被提出，它使用ResNet作为生成器结构，使用VGG作为判别器结构，具体结果如上图。

生成器结构包含了若干个不改变特征分辨率的残差模块和两个基于亚像素卷积的后上采样模块，因此它实现了4倍的分辨率提升。

判别器结构则包含了若干个通道数不断增加的卷积层，每次特征通道数增加一倍时，特征分辨率降低为原来的一半。

损失函数包括两部分，分别是内容损失和对抗损失。

根据内容损失选择MSE损失还是感知损失，以及是否添加GAN损失，作者比较了多个模型，SRResNet-MSE, SRResNet-VGG22，SRGAN-MSE, SRGAN-VGG22, SRGAN-VGG54。SRResNet即不使用GAN损失，MSE和VGG22分别表示不同的内容损失。

上图展示了对比结果，其中SRResNet就是SRResNet-MSE。可以看出添加GAN损失能显著改善视觉效果，而使用感知损失的结果细节也比MSE损失更好。

下图统计了一些自然的图像块，基于MSE生成的图像块和基于GAN生成的图像块的对比，也可以发现MSE的结果更加平滑。

github的tensorflow和pytorch开源代码如下:

https://github.com/brade31919/SRGAN-tensorflow

https://github.com/leftthomas/SRGAN

上图展示了一些结果，感兴趣的读者可以使用自己的数据进行训练。

参考文献

[1] Dong C, Loy C C, He K, et al. Image super-resolution using deep convolutional networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 38(2): 295-307.

[2] Johnson J, Alahi A, Fei-Fei L. Perceptual losses for real-time style transfer and super-resolution[C]//European conference on computer vision. Springer, Cham, 2016: 694-711.

[3] Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial networ k[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4681-4690.

5 GAN与图像修补

图像修补/补全对于修复图像中的噪声，遮挡等瑕疵至关重要，在photoshop等软件中是非常关键的一个功能，当前正处于快速发展期，GAN以其强大的生成能力成为了关键技术。

有三AI知识星球-网络结构1000变

Context Encoders

Context Encoders是第一个基于GAN的图像补全网络，它可以实现较大孔洞的填充。

作者/编辑言有三

Context Encoders的模型结构如上，它包含一个Encoder，一个全连接层，一个Decoder，输入为包括遮挡区域的原图，输出被遮挡区域的预测结果。

Encoder的主体结构是AlexNet网络，假如输入227×227，得到特征图为6×6×256。

然后是逐通道全连接层，为了获取大的感受野同时又具有较小的计算量，采用了逐通道全连接的结构，它的输入大小是6×6×256，输出大小则不发生变化。当然此处也不一定要采用逐通道的全连接层结构，只需要控制特征有较大感受野。

Decoder包含了若干个上采样卷积，输出待修补部位，具体的上采样倍率与修补部位相对于原图的大小有关。

训练损失包括两部分，一部分是重建损失，可以使用L1或者L2。

由于需要重建的是被遮挡区域，所以该损失需要在掩膜M的作用下，掩膜可以在训练时随机产生，比如产生不超出原图大小1/4的区域。

另一部分就是对抗损失，用于使生成的结果图更加真实。

上图展示了一些修补案例，虽然有着明显的缺陷，但是它展示了CNN和GAN模型结构相对于传统的图像修补方法的优势，为后续的相关研究开启了方向。

参考项目：https://github.com/BoyuanJiang/context_encoder_pytorch

参考文献

[1] Pathak D, Krahenbuhl P, Donahue J, et al. Context encoders: Feature learning by inpainting[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2536-2544.

6 GAN与图像融合

图像融合是一个非常底层的任务，它可以实现图像内容的无缝编辑替换，创作新的作品，GAN必会在其中大有作为。

有三AI知识星球-网络结构1000变

GP-GAN

Gaussian-Poisson GAN(GP-GAN)是第一个基于GAN的图像融合网络，它融合使用了传统的梯度方法和GAN，可以实现高精度的图像融合任务。

作者/编辑言有三

GP-GAN是第一个基于GAN的图像融合网络，要解决的问题如下，即两幅图像在掩膜下的线性叠加。

如上图，图(a)和图(b)就是要叠加的两幅图。c和e是对应图a的掩膜，d是直接拷贝的结果，f是融合后的结果。

GP-GAN 框架主要含有2部分：Blending GAN和Gaussian-Poisson Equation。

Blending GAN是一个编解码结构，它主要作为颜色约束(colour constraint)使生成的图像更加真实和自然，结果为低精度的输出，会比较模糊。其损失函数为L2 重建损失与对抗损失的组合，与大部分图像重建问题相同。

由于在该框架中两幅用于融合的原始图(src)和目标图(dst)是在不同拍摄条件下的同一场景，因此作者使用了目标图作为重建真值。当这个条件不满足时，则使用无监督的方式进行训练。

下图展示了一些结果，其中x是输入，xl是重建结果，xg是真值。

Gaussian-Poisson Equation是一个金字塔式的高分辨结构，它作为梯度约束(gradient constraint)，用于进一步提高图像分辨率，使其拥有纹理细节。

优化目标如下：

其中P(xh)就是标准的泊松方程，其目标是使生成图与原始合成图有着相同的高频信号。

div表示散度，∆为拉普拉斯算子，v计算如下。

c(xh)是颜色一致性约束，其目标是使生成图与原始合成图有着相同的低频信号。

以上两个问题写成离散形式如下。

L是拉普拉斯算子，G是高斯算子，u是散度，xh是要求求解的图，它具有解析解，求解时按照金字塔形式不断提升分辨率，前一级求出的xh作为下一级分辨率的xl。

下图展示了一些结果。

第一排是拷贝的目标掩膜，往下依次是直接拷贝, 改进的Poisson Image Editing, Multi-splines Blending以及GP-GAN的融合结果，可以看出GP-GAN的结果最为自然。

读者可以使用作者开源项目进行验证，链接为 https://github.com/wuhuikai/GP-GAN。

参考文献

[1] Wu H, Zheng S, Zhang J, et al. Gp-gan: Towards realistic high-resolution image blending[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 2487-2495.

7 关于更多GAN的内容

有三AI知识星球是我们继公众号之后重点打造的原创知识学习社区，目前的网络结构1000变板块正在更新GAN相关的内容，有需要的同学可以加入学习。

完整的有三AI知识星球生态介绍可以参考我们的一周年总结，点击图片了解详细必看。

以上所有内容

加入有三AI知识星球即可获取

开启生成式视频压缩：谷歌基于GAN来实现，性能与HEVC相当

选自arXiv 机器之心编译编辑:陈萍来自谷歌的研究者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩方法,该方法优于以前的神经视频压缩方法,并且在用户研究中与 HEVC 性能相当. 通常, ...
CVPR2021 P2GAN：提高图像风格迁移的鲁棒性

CVPR2021 P2GAN：提高图像风格迁移的鲁棒性
这个GAN没见过猪，却能把狗变成猪

丰色发自凹非寺量子位报道 | 公众号 QbitAI 不用成千上万张目标图片训练,就能让GAN生成你想要的图片,有可能吗? 还真有可能! 来自特拉维夫大学和英伟达的研究人员成功地盲训出领域自适应 ...
给你看个宝贝：GitHub 最野的开源模型库！

前阵子抖音爆火的应用蚂蚁呀嘿都笑过吧?这技术让一向严肃认真的giao哥都多了几分俏皮,这么秀的代码,必须狗一波.于是本狗啊不本人有了一个温暖(欠揍)的想法:想弄一个自家爹妈爷爷奶奶一起摇摆的鬼畜视频. ...
AI生成中国山水画，你能认得出真假吗？

2020-11-26 17:49 大数据文摘本文来自微信公众号:大数据文摘(ID:BigDataDigest),原标题<AI生成中国山水画!普林斯顿姑娘本科毕业作品,线条笔触骗过半数人类观察者 ...
即插即用！视频超分中的涨点神器：iSeeBetter

CNN让超分结果更真实,GAN让超分结果更丰满,所以CNN+GAN=GOOD! 添加一个鉴别器组件就能使结果增加0.32dB,即插即用,涨点神器!是否在其他的CNN架构上也可行,还需实验验证. 题目: ...
常州姜东：老小区加装电梯杂谈-为什么底层1/2楼愿意加装电梯

最近看到很多原因老小区(很多不是电梯房.6楼左右)因为加装电梯导致邻里不和,甚至上了新闻,其中很多人都怪低层用户(尤其是1楼的用户)不为其他人考虑.自私等等,一些看客还提出赔偿论.自私论.那么,这些人 ...
【教育杂谈】浅谈班级管理中的个别谈话艺术

[教育杂谈]浅谈班级管理中的个别谈话艺术甘肃教师学苑昨天点击"甘肃教师学苑"关注学习在班级管理中,经常遇到一些不宜在班级中公开或当众处理的事情,需要个别处理.于是,与学生个 ...
请不要为难底层技术研究者（中）

本人的毛病就是看问题比较喜欢钻牛角尖,而科技工作本身似乎也就是钻牛角尖的事情.不过这一次,牛角尖要针对牛角尖了! 我当然不能和大家们比研究的能力,但可不可以替那些有研究精神和研究思维却没有研究条件和专 ...
【杂谈】在油画人体创作中，画面的色彩对于表达情感是不容忽视的

情感是人类内心深处最为本真的存在,历史上有多少艺术家终其一生都在寻求情感的真谛.在美术创作中情感自始至终都起着最为重要的作用,而表现情感则更是美术创作永恒的主题.然而在当今快节奏的生活和高度市场化的影 ...
【杂谈】西方绘画和雕塑中，为啥总是以人体为主要内容？

这个问题的内部其实包涵一个隐藏词汇,写实一词,所以问题应该这样问,西方艺术为什么总以写实的人体为主要内容?注意写实两个字,如果没有这两个字,我们看到的可能就不是我们熟悉的西方艺术.因为我们很难看到艺术 ...
【杂谈】除了生成图像(造假)，GAN如何给目标检测，图像分割，图像增强等问题打辅助？

欢迎大家来到<知识星球>专栏,在GAN刚刚诞生的时候,的确只是用于生成图像造造假,做做数据增强,但是后来研究人员发现对抗思想是一个非常好的东西,几乎可以用于所有领域,今天介绍几个GAN在经 ...
【杂谈】什么是我心目中深度学习算法工程师的标准

有三AI平台只专心做原创输出很少扯淡也不蹭热点,不过最近询问的朋友多了,不得不统一写篇文章来回答一下这个大家都很关心的问题,当然,这仅仅是个人观点. 作者&编辑 | 言有三目前利用深度学习这 ...
语文杂谈：（十三）“语文”中的“倒插笔”

"语文"中的"倒插笔" 提起"倒插笔",每个上过学的人都不会陌生,因为在习字之初,老师反复再三重申,写字不要"倒插笔". ...
【灵璧杂谈】灵璧俗话说“不做中，不做保，不做媒人，三代好”，这是为什么？

俗话说"不做中,不做保,不做媒人,三代好",这是为什么? 文/乡村农夫在农村,老人们要想警示年轻人,都喜欢用一些俗语来表达他们心声,虽不明说,但却能起到一定的效果,这也许就是人们 ...

【杂谈】那些底层的图像处理问题中，GAN能有什么作为？

相关推荐