论文链接：https://openaccess.thecvf.com/content/CVPR2021/papers/Xiao_Space-Time_Distillation_for_Video_Super-Resolution_CVPR_2021_paper.pdf

作者单位：中科大

编者言：将知识蒸馏结合时空特征应用到VSR任务上，加强了学生网络的时空建模能力，验证了知识蒸馏方案在VSR任务上的可行性。

看点

紧凑的VSR网络可以很容易地部署在智能手机等设备上，但与复杂VSR网络存在较大的性能差距。为此，本文提出了一种时空蒸馏(STD)方案来利用VSR任务中的时空知识，将知识从复杂的VSR网络转移到紧凑的VSR网络中去提高紧凑VSR网络的性能。

空间蒸馏从网络中提取代表高频信息的空间注意图，进一步用于转移空间建模能力。时间蒸馏通过提取时间记忆单元的特征相似度来缩小紧凑模型和复杂模型之间的性能差距。可以在不增加额外运行时间与不改变架构的情况下获得更好的重建效果。

方法

图（a）表示VSR原理图，（b）和（c）为将知识从复杂的教师网络T转移到紧凑的学生网络S的STD方案。将多帧对齐和时空融合能力从T到S转移，可以使学生在视频重建方面更好地模仿老师。

训练时总损失为TD损失SD损失的加权和加上Charbonnier重建损失，推理时仅使用架构不变的学生网络。

高频细节在重建时是至关重要的。本文的方案受基于激活的注意蒸馏的启发，设计了一个通过从T中提取空间注意图来建模空间表示能力的SD方案，并利用它来训练S。空间注意图的生成等同于寻找一个映射函数，定义为下述三种之一：

这三种映射的可视化如下图：

相比，为高频细节区域分配更多权重。相比，更清晰和准确地描述场景的细节，因为它在全局机制中计算权重，而不是简单地选择最大值。为此，本实验选取作为映射函数，T和S的空间注意图计算为：

将空间注意图逼近来训练S。将空间注意图中所包含的知识从T转移到S，可以使S更好地模仿T学习的高频细节。优化S网络的SD损失为：

其中，定义为范数。使用滑动窗口方案来创建训练对，边界帧使用复制帧来创建对。

时间蒸馏(TD)

利用多帧间的相关性是VSR的关键步骤。复杂的教师网络由于其精心设计的帧对齐和融合结构，具有较强的处理大运动时间信息的能力。TD方案旨在将教师网络的时间建模能力迁移到学生网络。将输入通过特征提取和ConvLSTM编码得到隐藏状态：

TD方案的损失为：

ConvLSTM单元的网络参数与学生网络一起优化。为了提取多帧时间信息，S和T网络共享ConvLSTM的权值。值得注意的是，当ConvLSTM单元中的权值和偏差都为零时，可能存在一个模型崩溃点。为此，为了防止模型崩溃，当TD损失小于时对ConvLSTM的参数进行修正。

实验

采用EDVR作为复杂的教师网络T，使用几个更简单和浅层的网络作为学生来验证我们的STD方案的有效性。首先将FastDVDnet作为一个基本的学生网络，并对其进行消融研究。训练时采用BD下采样。

消融实验

STD方案的有效性研究：

蒸馏不同分辨率的特征的分析，实验发现使用高分辨率特征进行蒸馏比使用低分辨率特征更有效：

不同教师模型的进行蒸馏的分析，实验结论表明STD方案适用于不同的教师和学生并且教师的表现越好，蒸馏的提高就越大：

定量评估

在VID4和Vimeo90K-T上的定量评估，⋆为添加了STD的方案，♣为其他蒸馏方案：

定性评估

END

CVPR2021 视频超分辨率中的时空蒸馏方案