【GAN的应用】基于对抗学习的图像美学增强方法
好久不见~甚是想念
由于年底了要处理的事情变得特别多,突然间醒悟好久没更新啦
于是深夜给大家带来一篇生成对抗网络在图片美学增强上的应用。
首先来个小问题,你能猜出下图的(b)(c)那一个是手动PS,哪一个是自动PS么??
不知道大家有没有猜对,反正我是一脸懵逼,因为觉得都不错 [摊手]
如何获得堪比手动PS的自动PS效果呢?下面就具体讲讲GAN网络实现图片风格自动增强的方法。
传统的图片自动增强方法需要全监督的分别训练图片尺寸修改模型(cropping)与颜色增强(color enhancement)模型。而作者提出的EnhanceGAN只需要弱监督(一个表示美学质量的二进制标签即可),并且可以对尺寸修改与色彩增强的模型参数实现自适应调整。
相关概念
Aesthetic Quality Assessment:
基于人的审美感知区分美学上高质量与低质量的图片。一般基于data-driven的CNN网络模型。
Automatic Image Enhancement:
主要分为以下两点
Cropping and Re-targeting: 旨在寻找最能表现美学价值的区域,将照片进行裁剪等修改使之更具有美学观赏性。
Color Enhancement and Style Transfer: 通过调整画面整体颜调使美学效果更加突出。使用regression models 和 ranking models 将输入图片映射到相应的groundtruth。
网络模型结构
Preliminary
传统的GAN网络由一个生成器G和一个判别器D构成
假设pg为z~pz时G(z)的分布,当pg收敛于实际数据分布pdata时,式(1)将达到全局最优值。
文章中作者参考了[1]里面的损失函数的定义
式中fw是K-Lipschitz连续,可通过判别网络D进行逼近。
Generator Network (NetG)
与普通GAN不同的是,文中设计的EnhanceGAN可自学习图片风格增强的参数{o}。对应不同的变换系数{To},给定输入图片I,可得到输出
其中oL和oAB分别对应光照与颜色的调整系数,ocrop对应裁剪参数。
Generator network的结构采用ResNet-101(不含最后一层全连接层),并将最后一层池化层用来保存特征映射后的空间信息。如下图a所示。
图片裁剪的目的则是获得系数ocrop=[x,y,w,h]。基于attention models [2],cropping模型采用了一个卷积层(2048 --1),kernel size 1*1。如下图b所示。
而Top-K average pooling则是根据概率将元素聚类。如下图c所示。
Generator网络效果如下所示
而颜色增强模型在CIELab color space上,对于每一个像素点m,都有如下定义
其中系数oL=[a,b,p,q]和oAB=[oA,oB]=[a,b]均可有the convolution layer (2048--7)卷积层获得。
L,A,B的输入输出关系如下图所示
Generator 的损失函数LG则可有如下几种形式
Adversarial Loss:
Perceptual Loss:
Regularization Loss:
Discriminator Network (NetD)
文章所设计的判别网络用于评估图片美学质量。将ResNet-101网络中最后一层分类器转变为一个2个全连接神经元的输出层。
根据式(2)可以获得LD的损失函数为
实验
作者将所设计的网络应用于CUHK-PhotoQuality Dataset (CUHK-PQ)和AVA Dataset。
1. Quantitative Evaluation
1)图片美学质量评估
2)图片自动裁剪
作者定义了一个overlap ratio与Displacement Error来对裁剪效果进行评估
评估结果如下两表所示
2. User Study
我们让一个专业的修图师帮我们用PS处理下100幅图片与文中所设计的EnhanceGAN处理的100幅图片进行对比,将图片发给26个评委进行打分,具体分数分布如下所示
下列是具体图片的得分分布
据统计,作者提出的 EnhanceGAN 美学评价均分为5.327,专业的人工修图得分为 5.419 ,原图得分4.254 。
可以说,设计的网络在图片风格自动增强方面还是很不错的~
[1] M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gan. arXiv:1701.07875, 2017. 2, 3, 4, 5, 7
[2] K. Xu, J. Ba, R. Kiros, K. Cho, A. C. Courville, R. Salakhutdinov, R. S. Zemel, and Y. Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, volume 14, 2015. 4
论文来源:
Deng Y, Loy C C, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. arXiv preprint arXiv:1707.05251, 2017.