谷歌提出COMISR算法:针对视频压缩的压缩感知超分辨率

作者单位:谷歌

论文:https://arxiv.org/pdf/2105.01237.pdf

编者言: 针对H.264等视频压缩标准压缩后的视频进行超分,定量和定性效果相比过去的是视频超分辨率(VSR)算法有较大提升,有一定的业界价值。

01
看点
VSR专注于从LR视频中恢复HR视频,在对高度压缩的输入视频进行超分时往往会产生严重的伪影。本文提出了一种压缩感知超分辨率模型(COMISR),该模型可以在具有不同压缩级别的真实视频中表现良好。

该模型由三个视频超分辨率模块组成:双向翘曲循环、细节保留的流估计和拉普拉斯增强。所有这三个模块都用于处理压缩特性,如输入帧内的位置和输出帧内的平滑度。

02
方法

Overview

COMISR采用循环设计,模型概述如下:

双向循环模块

在前向方向上,首先使用LR帧和估计LR流和HR流。在LR流中,使用将LR帧扭曲到t时刻的;在HR流中,使用将之前的预测帧扭曲成HR帧,后有一个拉普拉斯增强模块,以生成准确的HR扭曲帧:
然后对进行space-to-depth操作,降低分辨率的同时扩充通道数,将其与concat一起数去进HR帧生成器去获得最终的HR预测。同样地,在反方向上使用对称操作来获得扭曲的LR帧和预测的HR帧。在这种情况下,细节感知流估计模块生成从t到t−1的反向流,通过将反向流应用于t帧去估计t−1帧来实现扭曲。

细节感知流估计 

首先连接两个相邻的LR帧和,并将其输入LR流量估计网络生成LR流。与直接上采样LR流不同,本文在双线性上采样LR流上添加了一些额外的反卷积层。在训练中学习详细的残差图,从而更好地保留预测的HR流中的高频细节。下图为具体的网络架构:

拉普拉斯增强模块 

拉普拉斯残差在寻找视频帧的细节时特别有用,在视频压缩期间这些细节可以被平滑。在COMISR中,扭曲的预测HR帧从之前帧的学习中保留了一些信息和细节。这样的细节很容易在上采样过程中丢失。为此,我们将拉普拉斯残差添加到预测的HR帧中,以增强细节。利用一个宽为的高斯核模糊G(·,·)来计算拉普拉斯增强图像:
下图显示了使用拉普拉斯图像增强细节的对比。其中红色框和绿色框中的patch,可以清楚地看到细节纹理被锐化了。
通过利用拉普拉斯算子,我们将细节添加回扭曲的HR帧中。接下来是space-to-depth操作,它将空间数据块重新排列,然后与LR输入帧concat。我们将其通过HR帧生成器生成最终的HR预测。
损失 

在训练期间,损耗的设计考虑了HR流和LR流。对于HR帧的损失,计算最终输出与HR帧之间的距离,如下:
每个从t-1被扭曲到t时刻的LR帧也使用距离来计算损失:
总损失是上述两个损失的加权和。
03

实验

消融实验 
a表示双向模块,b表示细节感知流估计,c表示拉普拉斯增强模块

定量评估 

不同固定码率系数在VID4测试集上的比较,COMISR更倾向于于处理压缩严重的图像

使用LPIPS度量进行性能评估(越低越好),在REDS测试集上表现良好

定性评估 

在VID4测试集上的定性评估,原VSR方法生成的伪影较为严重

END

(0)

相关推荐