阿里-优酷视频增强和超分辨率挑战赛冠军方案：VESR-Net / 开普饭

作者单位：中国科学技术大学、微软亚洲研究院

论文：https://arxiv.org/pdf/2003.02115.pdf

挑战赛：https://tianchi.aliyun.com/competition/entrance/231711/rankingList/1

看点

视频增强与超分辨率（VESR）旨在从噪声和低分辨率视频帧中恢复高分辨率的细节。为了推动研究从受现实世界退化影响的低质量视频中恢复高质量视频，优酷举办了视频增强和超分辨率挑战赛，以探索在线视频应用程序中真实退化的数据集的VESR解决方案。

该文介绍了VESR-Net，它在优酷VESR挑战赛中获得第一名。具体的说：

1.设计了一个独立的非局部（Separate NL）模块来有效地探索视频帧之间的关系并对视频帧进行融合；

2.设计了一个通道注意残差块（CARB），用于在VESR网络中捕获视频帧重构的特征映射之间的关系。

Youku-VESR挑战

挑战赛了收集1000个1080p视频片段，包括高分辨率和低分辨率视频对。该数据集包含了多种类型的内容，在在线视频观看应用中，低分辨率视频会受到不同噪声的影响。

挑战阶段：

第一阶段，所有参与者得到200对LR和HR视频用于训练，50对LR视频用于评估。

第二阶段，Youku发布650对LR和HR视频用于培训，100对LR视频用于验证。

第二阶段的LR视频比第一阶段的视频退化更严重。在该文所提及的方法中，对于一共1000个视频片段，分割了50个视频用于评估，剩下的视频用于训练。

评估阶段：

评估阶段定量指标是峰值信噪比（PSNR）和视频多方法评估融合（VMAF）。测试为前5个视频中的所有帧和剩下视频中的每隔5帧的下一帧。

方法

overview

VESR-Net由两部分组成：帧间融合的融合模块和帧内融合的重构模块。融合模块的目标是通过从相邻帧中提取有用信息，同时忽略时间冗余信息来融合相邻帧进行中间帧重建。

因此，该文提出了一个独立的非局部模块来模拟视频特征之间的关系。在帧重建模块中，在残差块中引入了通道注意机制，以实现高效重建。

每个模块的具体网络架构如下表：

在计算机视觉中的自注意机制称为非局部神经网络。然而，由于非局部神经网络中关系矩阵的高维性，非局部运算消耗了大量的参数，尤其是对于视频特征。因此，该文设计了一种新的称为独立非本地的模块，在较浅的网络中可以达到更好的性能。

该设计了三种类型的注意模块，以探索不同维度的全局上下文信息。

首先，在三个分支中分别生成两个新的特征映射A1、A2、A3和B1、B2、B3。

然后将它们reshape到C×T×(N×W)、T×H×W×C、C×H×W×T，通过矩阵乘法得到三个关系矩阵。M1、M2和M3分别表示不同空间上下文、不同通道和不同时间步长之间的相似性。

同时，将视频特征F输入到三个卷积层中，生成新的与B在同一空间中的特征映射D1、D2、D3。接下来，对D1，D2，D3的转置与M1，M2，M3进行矩阵乘法，得到结果E1，E2，E3。

最后，在E1，E2，E3和F之间进行元素和运算，得到融合特征。

重建模块中残差块中的通道注意机制是VESR高效重构和良好性能的基础。在CARB中，首先执行全局平均池化获取通道描述W。

然后通过两个线性层得到通道权值Z，并将通道权值Z与视频特征X相乘，最后将相乘的结果与视频特征进行concat，输入进1×1卷积层得到最终输出。

实验

消融实验

对提出的独立非局部模块和通道注意残差块进行消融实验，并与EDVR进行对比。（此处没有给两个模块都没有的实验数据，如果两个模块都没有就比EDVR性能好，该论文就没有很大的意义了，不如去讲讲没有这两个模块为什么还会比EDVR性能好）

为了公平比较，EDVR作为baseline采用了20个残差块，其参数数量与VESR-Net相当。在设计的独立非局部模块和通道注意残差块的帮助下，VESR-Net比EDVR网提高了0.22dB，并且计算复杂度较低。

END

备注：超分辨率

超分辨率交流群

图像视频超分辨率，可见光、红外、遥感超分辨率等技术，

若已为CV君其他账号好友请直接私信。

阿里-优酷视频增强和超分辨率挑战赛冠军方案：VESR-Net