对于很多自主感知应用而言,预测环境未来的变化是非常重要的基础功能。本文来自加州大学洛杉矶分校和斯坦福大学,提出了一种语义导向的动态模型来实现视频预测。本文作者认为,在视频数据中,由于物体自身的几何结构和运动模式不同,会产生不同的时序视觉变化,直接训练模型来预测整个画幅的变化,难度较大,所以本文假设,将视频场景分解成独立的个体,捕获每个个体的演变特点,然后再进行预测整合,可以提高整体预测的效果。上图为对同一段视频帧序列的三种不同表示,视频帧、语义分割图和光流场,可以看出,视频帧中发生的动态变化相比语义分割图和光流场中的动态变化都更为复杂,所以作者提出将语义分割图(场景布局)和光流场(运动信息)分开处理,分别进行预测,并将它们的上下文信息进行整合,来进行未来帧的预测。本文的核心出发点是为了明确的进行动态语义建模,即动态模型的输入为视频帧的语义图和光流场
,模型预测得到未来K帧的描述
,随后进行特征融合一系列后处理得到最后的预测结果。
对于输入的动态描述(语义图和光流图),本文以编解码的形式进行处理,具体流程如下图所示。语义一致性区域通过C个语义类别构成,令
为当前类别c的区域掩码,将该掩码乘到对应t时刻的光流场得到当前类别c的动态像素
,对动态像素经过语义循环编码器得到历史帧的中间状态即历史时序信息:
对于全部类别得到中间状态集合
,包含了已经输入模型的所有语义图和光流场,需要说明的一点是,
每次只能表示一个类别的独立对象,虽然会给人一种效率低下的感觉,但是分开类别处理可以减少模型的参数量,同时独立的对象更易于表示。
随后语义循环解码器通过对编码器得到的历史时序信息进行动态信息提取,进而预测未来帧的语义图和光流场,预测流程如下:其中
表示C个类别的循环解码器,不断更新中间状态
和嵌入表示
,随后使用两个预测头
和
分别对语义图和光流场进行预测,并通过多任务学习的形式进行模型优化。随后对预测得到的未来帧语义图和光流场以线性组合的形式后融合得到最终结果。
动态语义建模的优化目标由以下三项构成,首先是对于未来帧的光流图的重建损失:其中
为交叉熵函数,附加的权重用来描述当前元素是否靠近不同类别之间边界的程度。以上两个损失函数可以对上文提到的明确性语义感知建模进行监督,但是本文作者提到仍然需要给模型对未来帧预测时增加一定的随机性。为此,本文额外加入了一个循环编码器
,该编码器以同样的方式对历史帧进行处理,其目标是生成与输入序列相对应的随机噪声,然后以参数重置的方式将噪声进行整合,加入KL散度损失对
进行优化:
由于动态语义模型只负责生成未来帧的语义图和光流场,对于最终视频帧的预测需要借助输入历史帧的图像细节,但是直接将得到的语义图和光流场对历史序列进行叠加,势必会带来一定的目标错位和遮挡,所以作者将历史序列帧作为锚点随后进行变化,引入一个条件绘制网络
,该网络将输入作为锚点帧,尝试将遮挡区域进行补全,并以对抗训练的方式进行优化,完成整体的未来帧预测过程。
本文在三个常见的数据集上进行了实验,分别是Cityscapes、KITTI Flow和KITTI Raw,这些数据集包含一定数量的车辆驾驶场景,本文使用预训练好的语义分割网络DeepLabV3和光流估计网络PWC-Net分别对视频序列提取语义图和光流场。质量对比实验分为未来帧预测效果对比和语义分割精确度对比两部分,其中预测效果对比由MS-SSIM和LPIPS两种常用的图像恢复评价指标给出:分别在Cityscapes和KITTI Raw数据集上有优越的性能表现。对于语义分割效果对比使用平均IoU给出,分数计算以对每个序列的第20帧的预测结果为准,下表给出了对于不同序列长度的对比结果,可以看到本文方法在序列长度较长时效果更加明显。