ICCV2021 |上交、北理、百度联合研究视频缩放任务中的自条件概率学习 / 开普饭

详细信息如下：

作者单位：上交、北理、百度
论文链接：https://arxiv.org/pdf/2107.11639.pdf

看点

本文提出了一个视频缩放的自条件概率框架（SelfC），以同时学习成对缩放过程。在训练时，在LR视频中有强时空先验信息的条件下，通过最大化降采样丢失信息的概率来减少丢失的信息熵。该方法利用LR视频中丰富的时间信息，通过引入指定的局部和全局时间聚合模块，精确估计分布参数。此外，本文进一步将该框架扩展到有损视频压缩系统，提出了一种基于控制变量法和Monte Carlo采样技术的非微分有损编解码器的梯度估计方法，用于整个系统的端到端训练。

方法

SelfC框架的如下图(a)所示，其中使用取整运算作为量化模块，并以H.265无损格式存储输出的LR视频。量化模块的梯度由直通估计器（STE）计算。

在降采样过程中，频率分析器(FA)首先将HR视频转换为视频特征，其中前3个通道为低频分量，后个通道为高频分量，为采样系数。然后，被量化为LR视频进行存储，在这个过程中被丢弃。在上采样过程中，时空先验网络(STP-Net)预测高频分量的概率密度函数：

将建模为连续高斯分布的参数矩阵，然后从分布中提取高频分量。最后利用频率合成器(FS)将级联的和重构出HR视频。

频率分析器和合成器

如上图(b)所示，首先将HR视频分解为低频组件和高频残差组件，然后用一个可学习的操作将级联的和转换为输出特征。的网络架构是非常灵活的，在此使用多个堆叠的Dense2D-T块实现它，Dense2D-T的结构在上图右侧。Dense2D-T块由Dense2D块修改而来，用时间卷积替换最后的空间卷积。频率合成器的结构与分析器是对称的，如上图所示。

自条件概率模型

由于量化模块使用取整运算，导致其梯度不平滑，直接使用梯度下降优化是不稳定的。为此选择优化。具体的说，将高频分量表示为基于低频分量的连续多模态概率分布，公式为：

其中表示时空位置。使用组件数量K=5的连续高斯混合模型(GMM)来近似，其分布由可学习的混合权重，平均值和对数方差定义。分布可以精确的定义为：

其中

STP-Net

如(d)所示，为了估计上述分布的参数，提出STP-Net来对缩小后的视频中的局部和全局时间信息进行建模。首先利用Dense2D-T块提取每个输入帧的短期时空特征。在这一阶段，只将前一帧或下一帧的信息聚合到当前帧中，而忽略视频中的长时间依赖关系。因此进一步引入了全局时间信息建模的注意机制。

具体地说，首先利用空间聚合器（一个平均池化+FC）降低了短期时空特征的空间维度，然后使用点乘来生成注意力图，它代表每两帧之间的相似度。最后基于相似度对局部时空特征进行优化。重复以上步骤六次，以提取更好的视频特征。最后，利用三层多层感知器(MLP)估计GMM分布的参数。

损失

为了确保STP-Net能够对高频分量得到准确的估计，损失中直接最小化的负对数似然值：

缩小后的视频最好与原始视频相似。因此在量化之前对缩小的视频进行正则化：

为了避免繁琐的解，为频率分析器和合成器的CNN部分添加如下惩罚项：

最小化重构损失，其中为损失，(c)为concat，从由STP-Net输出的参数构造的分布中采样，为了实现端到端的优化，本文采用了“重参数技巧”，使采样过程可微：

总的损失为：

值得一提的是，SelfC框架的性能对这些超参数并不敏感，直接将所有参数设置为1已经达到了合理的性能。

实验

视频压缩中的应用

本节将提出的SelfC框架扩展到有损视频压缩系统，目的是演示本方法在减少视频存储空间方面的有效性。整个系统下图所示：

首先使用SelfC生成缩小的视频，它将通过使用现成的工业视频编解码器进行压缩。然后在解码器端，压缩视频将被解压缩并上采样为全分辨率视频。考虑到传统的视频编解码器是非差分的，本文为此提出了一种新的优化策略：引入了可微代理视频扰动器φ，由6个Dense2D-T块的深度神经网络(DNN)组成。

在反向传播阶段，编解码器的梯度可以近似为φ的梯度。在测试阶段，我们去掉代理DNN，直接使用H.265编解码器进行压缩和解压。根据控制变量理论，φ可以作为视频编解码器的低方差梯度估计器(η)当(1)两个函数的输出差异最小化(2)两个输出分布的相关系数ρ最大。将这两个约束引入到视频压缩系统的优化过程中，φ的损失函数为：

其中ρ被每批次的Monte Carlo采样估算：

其中

总损失为

视频动作识别任务相关应用与实验详见原文。