显著提升真实数据超分性能,南大&腾讯开源图像超分新方案,获NTIRE2020双赛道冠军
加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
心心念念的文章<NTIRE2020-RWSR冠军方案>终于发出来了。该文是南京大学&腾讯优图提出的一种图像超分方案,它在NTIRE2020-RWSR两个赛道获得了冠军。先看个效果图,有没有觉得这个效果是真的非常棒!
Abstract
基于深度学习的图像超分方案在合成数据集取得了令人振奋的效果,然而在真实世界应用时却出现了性能的急剧下降,主要原因:训练数据采用双三次插值合成。为解决上述问题,首先,作者提出一种新的数据制作方案:统计模糊核与真实噪声分布并用于制作训练数据对。所提方案可以使得LR与真实世界图像处于同域,进而将提升图像超分的性能。然后,作者提出一种真实世界超分模型以获得更好的感知效果。作者在合成数据与真实数据上验证了所提方案的SOTA性能(更低的噪声、更好的视觉质量),所提方案在NTIRE2020-RWSR两个赛道夺冠。
Method
作者首先分析了不同核在下采样图像上的影响性分析。假设原始真实图像域,清晰的HR域为,不同的模糊核对于下采样图像的影响非常大,双三次下采样核一种理想的核(它尽可能的保持与具有相同的信息)。然而这些下采样后图像已转换到另外一个域。在数据对上训练的模型在上性能表达极好,然而在上的表现却差强人意。下采样图像的另外一个问题是:几乎不含噪声。而真实世界图像往往包含大量的噪声,也就是说:仅仅估计模糊核难以精确模拟降质过程。
作者通过上述分析并结合已有超分方案在不同数据上的效果差异得出这样一个结论:“真实世界超分的关键问题在于如何引入精确的降质模型以确保生成的LR图像与原始图像具有同域属性(比如噪声分布、模糊等)”。为解决前述所提到的问题,作者提出了一种新颖的数据制作方案。
Real Degradation
首先介绍一下适用于超分的真实降质过程,它可以描述为:
其中,分别表示模糊核与噪声。在实际场景,均未知的。为更精确的估计降质模型,我们需要从图像中估计模糊核与噪声。一旦得到这些模糊核与噪声,我们就可以利用其构建一个降质池用于对清晰HR图像降质生成LR图像。该数据制作过程可以描述如下:
Kernel Estimation
作者采用了类似KernelGAN的方式从真实图像中估计模糊核,KernelGAN的生成器是一种线性模型且不包含任何激活层,因此它的参数可以组合为一个固定核,该估计核满足如下约束:
其中表示由核k得到的下采样LR图像,表示由理想核得到的下采样图像。第二项则是正则项约束,第三项是边界惩罚项,最后一项通过判别方式确保源域信息一致性。
Clean-Up:为得到更多的HR图像,首先从源域生成无噪图像,作者采用双三次下采样方式对源域真实图像进行处理,它可以移除噪声同时确保图像的锐利度。假设表示双三次核,这里所提出的得到HR图像的过程可以描述为:
Degradation: 作者将经双三次插值得到的图像视作HR,然后从前述构建的降质池中随机选择模糊核,采用下面的方式公式进行LR图像的制作:
Noise Injection
前面也提到了噪声也是真实世界图像复原应用中非常关键的一个环节,那么如何将噪声注入呢?作者这里提出一种非常容易理解的方案,容我细细道来。
由于LR的获取过程中,图像的高频信息被丢失了,同时也会导致噪声分布发生了变化。为使最终得到的LR图像与源域中的图像具有相似的噪声分布,作者提出直接从源域 数据中收集噪声。作者指定了这样一个规则:如果某个块的方差小于设定的阈值,则将其纳入到降质池中。这个规则可以描述为:
其中,分别表示方差函数与预设最大方差。
在得到图像噪声块后,剩下的就是制作带有噪声的LR图像了,这个就简单了。
Loss
在超分模型方面,作者并未进行任何创新,它直接采用ESRGAN作为生成器。在损失函数方面,作者选用下面的损失组合:
在损失方面,它与ESRGAN存在些微区别,主要是判别器:采用了块判别器而非ESRGAN中的VGG。块判别器确保了生成器不会产生类似ESRGAN的伪影问题。
Experiments
训练数据1: DF2K,它由DIV2K和FlickrK构成,包含3450图像。这些图像将被添加高斯噪声以模拟传感器噪声。对应的验证数据包含100图像,用于进行度量指标统计。
训练数据2:DPED,它包含由iphone3拍摄5614图像,且未经处理的真实图像,更具挑战性:包含噪声、模型、低光以及其他低质问题。对应的验证数据包含100图像,由于无对应GT,它主要用于提供视觉对比。
评价准则:PSNR、SSIM、LPIPS等。
Evaluation on Corrupted Images
作者首先在DF2K数据集上对所提方案与其他超分方法进行了对比,对标方法包含EDSR、ESRGAN、ZSSR、K-ZSSR等,评价准则主要关注LPIPS。指标与视觉效果对比如下,可以看到:
所提方案具有最佳LPIPS指标,这意味着在视觉效果方面它与GT最为接近; 所提方法生成的图像具有更少的噪声,更锐利的纹理细节,且不会产生类似ESRGAN的伪影。
注:为更好的说明作者生成的LR图像,笔者从DIV2K-val数据集中挑出了同一张图。可以下图的对比可以看到:作者用来做测试的LR图像已经被注入了噪声。而对标的EDSR、ESRGAN应该并未在新构建的数据集上进行finetune。
Evaluation on DPED
由于该文所提方案更关心的是它在真实图像超分方面的性能(也就是DF2K上的实验只是“小打小闹”,哈哈),因此作者进一步在DPED数据集上进行了评估。视觉效果见下图,相比其他超分方案,所提方法生成的结果具有更少的噪声和伪影,这也意味着噪声注入方式得到的噪声估计与真实噪声分布非常接近。
NTIRE2020
该文所提方案取得了NTIRE2020-RWSR竞赛两个赛道的冠军。赛道1为合成数据;赛道2为智能手机拍摄的真实数据。相关结果如下所示。注:赛道1采用的评估指标为MOS,赛道2采用的指标为MOR。所提方法在两个赛道以极大优势夺冠,棒棒哒!
Ablation Study
最后附上作者进行的一些消融实验结果,如下所示。
Bicubic:采用双三次插值下采样合成数据,这种方式理解为ESRGAN模型在DPED上微调;该对比可以用来验证ESRGAN对于真实数据的鲁棒性。 Noise:将噪声添加到双三次下采样图像上,它用于与全套方案一起验证核估计的有效性。 Kernel:这里仅仅采用kernel估计,而未采用噪声注入,用于验证噪声注入的必要性。 VGG-128:用于验证块判别器的作用; Patch:采用更轻量的块判别器,用于验证前述判别器替换结论。
从上述对比主要可以得出这样几个结论:
核估计对于超分的训练非常重要,它有助于生成更锐利的边缘; 噪声注入有助于确保超分模型测试阶段的鲁棒性; 块判别器有助于缓解原始ESRGAN的假性纹理现象。
Conclusion
总而言之,作者提出一种新颖的数据制作方案:它确保了生成了LR图像具有与源域图像相近的属性(比如噪声分布)。与此同时,结合GAN方式的模型训练使得最终的生成器可以生成具有更佳视觉效果的图像,在真实数据上具有更低的噪声、更佳的视觉效果。所提方案还在NTIRE2020-RWSR竞赛的两个赛道夺冠。
通篇看下来,个人感觉这篇论文最关键的一点在于:真实噪声的获取与注入。