显著改善分割预测，ETH开源基于情景图储存网络的视频目标分割｜ECCV2020

2024-06-22 14:21:25

极市导读

本文着力于解决视频目标分割领域的一个基本问题：使分割模型有效适应特定视频以及在线目标的外观变化。提出了一种简洁快速的新图存储机制，显著改善了分割预测。此外，图存储网络产生的框架还可以推广到one-shot和zero-shot视频目标分割任务。>>极市直播预告：CSIG-ECCV2020 论文预交流会，29位ECCV2020一作联合直播

本文主要解决视频目标分割领域的一个基本问题：如何使分割模型能够有效地适应特定视频以及在线目标的外观变化？

解决办法：提出一个图存储网络来对分割模型进行“学习更新”。

大概流程分为两步：首先构建一个由全连接图构成的情景存储网络，将帧存储为节点，并通过边捕获跨帧的相关性。然后，可学习的控制器被嵌入以简化内存的读写。

相比于以往模型的优势：结构化的外部存储使可以在视觉信息有限的情况下全面挖掘并快速存储新知识。不同的存储控制器通过梯度下降学习了一种抽象的表示方法，可以利用这种表示学习进行预测。另外，图存储网络产生的框架，可以推广到one-shot和zero-shot视频目标分割任务。

论文链接：https://arxiv.org/pdf/2007.07020.pdf

代码：https://github.com/carrierlxk/GraphMemVOS.git

1.引言

视频目标分割(VOS)旨在像素级别对视频中的一个目标进行预测，目前根据第一帧的视频是否有注释可以把VOS分为两类：one-shot视频目标分割(O-VOS)和zero-shot视频目标分割(Z-VOS)。

O-VOS：提供第一帧的视频注释，可以对视频其他部分带标签的目标进行分割预测。

Z-VOS：在没有任何测试时间指示的情况下自动推断主要目标。

O-VOS的主要困难：没有关于特定目标的假设，应用场景有干扰对象。

支持集：视频的第一帧注释。

查询集：视频的其余帧。

针对O-VOS以往的解决方法：较早的方法，在每个带注释的目标上构建network ﬁnetuning-缺点：耗时。当前流行的方法，建立一个匹配框架，将该任务描述为支持集和查询集之间的匹配流程。

O-VOS方法的限制：

1.首先学习通用匹配网络，然后将其直接应用于测试视频，无法充分利用第一帧目标特定信息。结果导致其不能有效地适应输入视频。

2.由于分割目标可能会出现外观变化，因此执行在线模型更新很有意义。

3.基于匹配的方法仅对查询和每个支持帧之间的配对关系建模，而忽略了支持集中的上下文。

本文受到了最近小样本学习的记忆增强网络的启发而提出的方法：开发了一个图存储网络，以通过单次前馈使在线分割模型适应特定目标。

本文模型的一些优势：图存储网络简洁，快速。对于内存更新，模型在固定大小的图内存上执行消息传递，而不增加内存消耗。模型提供了一个框架；它概括了Z-VOS任务，而主流方法缺乏自适应能力。这项工作代表了在统一网络设计中同时解决O-VOS和Z-VOS的第一部分。

2.方法

2.1 预备知识：情景记忆网络

背景：记忆网络通过外部存储组件增强了神经网络，使网络可以显式访问过去的经验。常应用于小样本学习和目标追踪中。

解决的相关任务：情景外部存储器网络解决视觉问题回答和视觉对话中的推理问题。

基本思想：使用可学习的读写运算符从内存中检索回答问题所需的信息。给定输入表示的集合，情节记忆模块通过神经注意力选择要关注的输入部分。然后在考虑查询以及存储的情况下生成“内存摘要”表示形式。情节中的每个迭代为存储模块提供有关输入的相关信息。最后存储模块具有在每次迭代中检索新信息并获得有关输入的新表示的能力。

2.2 学习更新

目标：从第一帧中带注释的目标学习，在后续帧中对其进行预测。

传统方法：将网络连接到一起，并为每个特定的视频执行在线学习。

本文的方法：根据训练任务的分布对各种任务构造基于情境记忆的学习器，从而使学习的模型在新的不可见的任务（测试视频）上表现良好。将O-VOS作为“学习更新”的分割网络来处理。

过程：

i）从one-shot支持集中提取任务表示。

ii）给定任务表示形式，更新查询的分割网络。如图1所示，增强具有图结构的情景存储网络（即图存储网络），以便：i）立即使分割网络适应特定的对象，而不是执行大量的迭代；ii）充分利用视频序列中的上下文。

本文的图存储网络具有两种能力：在模型初始化阶段学会从one-shot支持集调整分割网络，学会在帧处理阶段利用分割帧来更新分段网络

图1 图存储网络

2.3 图存储网络

结构：由一个外部图存储器和用于存储操作的可学习控制器组成。

外部图存储器：为新知识编码提供了短期存储，其图结构允许全面探索上下文。

控制器：进行读取和写入操作，与图存储器交互，通过权重的缓慢更新来长期存储。通过控制器，模型可学习两方面的内容：1.其放入内存的表示类型，2.以后如何将这些表示用于细分预测的通用策略。

图存储网络的核心思想：执行情节推理的K个步骤，以有效挖掘内存中的结构并更好地捕获目标特定的信息。

图存储网络的具体流程：

存储器被组织为一个大小固定的全连接图（，），其中节点表示第i个存储单元，边，（，）表示单元格和之间的关系。

给定一个查询帧，支持集被认为是第一个带注释的帧和先前分割的帧的组合。从支持集采样的（）帧初始化图内存。对于每个存储节点，通过将全卷积存储编码器应用于支持帧以捕获空间视觉特征以及分割mask信息，来生成其初始嵌入。

图内存读取。全卷积查询编码器也应用于查询帧，以提取视觉特征。一个可学习的读取控制器首先将q作为输入并生成其初始状态：

其中表示映射函数。

在每个情节推理步骤，，，读取控制器通过读取内容与外部图存储器进行交互。遵循键值检索机制，先计算查询与每个内存节点之间的相似度：

接下来通过softmax归一化函数计算读取权重：

考虑到某些节点由于底层相机移动或视线不佳而产生噪声，因此可以测量存储单元的置信度。然后使用此权重检索内存聚合以线性组合内存单元：

通过等式（2-4），存储器模块检索与最相似的存储器单元，以获得存储器聚合。读取内存汇总后，读取控制器将更新其状态，如下所示：

其中和是卷积核，σ表示Sigmoid激活函数。“ *”和“◦”分别代表卷积运算和Hadamard乘积。更新门控制要保留多少先前的隐藏状态。通过这种方式，控制器的隐藏状态对图存储器和查询表示进行编码。

情景图内存更新：

每次通过内存汇总后，都需要使用新的查询输入来更新情节图内存。在每个步骤k，可学习的存储器通过考虑其先前状态写入控制器，来自读取控制器的当前内容以及来自其他单元的状态来更新每个存储单元。首先将从到的关系公式化为其特征矩阵的内积相似性：

其中表示可学习的权重矩阵，和被固定为矩阵表示形式。存储与和中所有位置对对应的相似性分数。

然后，对于，从其他单元格计算归一化的信息，并对其归一化的内积相似性进行加权：

其中softmax（·）标准化输入的每一行。

汇总来自邻居的信息后，内存写控制器将的状态更新为：

图内存更新允许每个内存单元将邻居信息嵌入到其表示中，以便全面探索支持集中的上下文。此外，通过对图结构进行迭代推理，每个存储单元对新的查询信息进行编码，并逐渐改进表示形式。与传统的存储网络相比，本文的图存储网络具有两个优点：i）将内存写操作融合到内存更新过程中，而不会增加内存大小，并且ii）避免设计复杂的内存写策略。图2显示了内存读取和更新。

最终分割Readout 在对情节性存储器进行K步更新之后，利用来自存储器读取控制器的最终状态来支持对查询的预测：

读数函数（）给出最终的分割概率图。

图2 内存读取和更新

2.4 网络架构

网络配置 总体模型以端到端的全卷积实现；查询编码器和内存编码器都具有相同的结构；图存储器，读控制器（等式（5））和写控制器（等式（8））均使用具有1×1卷积内核的ConvGRU实现；投影函数fP（等式（1））也通过1×1卷积层实现；读出函数fR（等式（9））由一个解码器网络实现，该网络由四个块组成，这些块具有与相应的ResNet50块的skip-connection；解码器中每个卷积层的内核大小设置为3×3，最后一个1×1卷积层除外；查询和内存编码器实现为ResNet50的四个卷积块，由ImageNet上预训练的权重初始化；

输入查询编码器以RGB查询帧作为输入；内存编码器，输入为RGB支持帧；存储器编码器以二进制掩码和实例标签图作为输入

训练对于O-VOS，按照“递归训练”训练模型。通过对支持集进行采样以构建图存储器和相关查询集来形成每个训练周期。递归训练的核心是模仿推理过程。对每个视频采样N + 1帧构建支持集（前N帧）和查询集（最后一帧）。N个支持帧可以由N节点存储器图表示。将交叉熵损失应用于监督训练。

为了防止图记忆仅记住实例与单向矢量标签之间的关系，本文采用了标签关闭策略。如图3所示，分割网络通过考虑当前的训练样本而不是记住目标和给定标签之间的特定关系来学习区分当前帧中的特定实例。

为了进一步提高性能，通过合成视频扩展了训练集。对于静态图像，采用视频生成技术通过不同的变换操作来获得模拟的视频剪辑。静态图像来自现有的图像分割数据集。在对合成视频进行预训练之后，将真实视频数据用于微调。

对于Z-VOS，遵循与O-VOS类似的训练协议，但是输入模态仅具有RGB数据。本文专注于对象级别的Z-VOS设置，因此不使用标签切换策略。

推理训练后直接将网络应用于测试集。对O-VOS按顺序处理每个测试视频。前N个帧直接计算内存汇总（等式（4））并将这些帧写入内存。从第（N + 1）帧开始，在分割之后将使用该帧更新图内存。考虑到第一帧及其注释始终提供最可靠的信息，重新初始化存储有关第一帧信息的节点。因此使用第一个带注释的帧，最后一个分割的帧和从先前的分割帧中采样的N-2个帧，以及它们的预定义或分割掩码来构建内存。对于多实例的情况，为每个实例独立运行模型，并为每个实例获得soft-max概率掩码。对于Z-VOS，从同一视频中随机采样N帧以构建图内存，然后根据所构建的内存处理每个帧。考虑到全局信息比局部信息对于处理潜在的对象遮挡和相机移动更重要，因此通过使用全局采样的帧重新初始化图形存储器来独立处理每个帧。

3.实验结果

3.1 O-VOS的性能

O-VOS使用DAVIS17 和Youtube-VOS 数据集

图4 O-VOS的量化结果

3.2 Z-VOS的性能

Z-VOS使用DAVIS16 和Youtube-Objects数据集。

4.总结

本文主要提出了一种新的图存储机制，可以有效地使分割网络适应特定视频。通过对存储图进行情节推理，所提出的模型能够生成视频专用的存储摘要，从而显着改善最终的分割预测。同时，可以通过可学习的内存控制器来实现在线模型更新。图存储网络简洁，快速。模型在内存更新时可以在固定大小的图内存上执行消息传递，而不增加内存消耗。

◎作者档案

Jack Choi，CS在读小硕

个人公众号：AI算法后丹修炼炉

欢迎大家联系极市小编（微信ID:fengcall19）加入极市原创作者行列

图解软件：1. 什么是计算机

第1章什么是计算机作为开始,我们先来说说计算机到底是一种什么样的电子设备,它是由哪些部分组成的,以及这些部分在计算机程序运行的过程中都起到了什么样的作用. 1.1 CPU 计算机这个名词你肯定都已 ...
SwiftNet：实时视频对象分割

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
2020半导体产业王者崛起--存储芯片了解一下？

本文来源:物联传媒本文作者:露西 Gartner最新报告预测,由于新冠病毒对半导体供需的影响,2020全年半导体营收较上季预估减少550亿美元,至4154亿美元.在此情况下,非存储市场收入有望达到2 ...
深入计算机组成原理（一）冯·诺依曼体系结构：计算机组成的金字塔

学习计算机组成原理,到底是在学些什么呢?这个事儿,一两句话还真说不清楚.不过没关系,我们先从"装电脑"这个看起来没有什么技术含量的事情说起,来弄清楚计算机到底是由什么组成的. 不知 ...
如何为系统选择合适的NAND FLASH

在设计使用NAND FLASH的系统时选择适当的特性平衡非常重要.闪存控制器还必须足够灵活以进行适当的权衡.选择正确的闪存控制器对于确保闪存满足产品要求至关重要. NAND FLASH是一种大众化 ...
终于！商汤科技开源DAVIS2017视频目标分割冠军代码

用目标重识别改进视频目标分割. 传统视频分割经常依赖于时序连续来生成mask(目标的掩膜),而真实的视频中的目标位置往往存在着一些跳变,比如在目标快速漂移和被遮挡的时候因为较大的位移而使得这种假设目标 ...
CVPR2019| 04-23更新7篇论文及代码（1篇oral，含视频目标分割、物体检测、三维点云等）

前段时间,计算机视觉顶会CVPR 2019 公布了接收结果,极市也对此做了相关报道:1300篇!CVPR2019接收结果公布,你中了吗?.目前官方只公布了接收论文ID列表,极市已汇总目前公开的所有论文 ...
MMTracking：目标跟踪工具箱开源了（支持单/多目标跟踪、视频目标检测）

本文作者:OpenMMLab https://zhuanlan.zhihu.com/p/341283833 2021年的第一个工作日,OpenMMLab 有新成员加入咯- 太长不看系列 MMTrack ...
DL之Yolov3：基于深度学习Yolov3算法实现视频目标检测

DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对<俄罗斯总统普京对沙特王储摊的"友好摊手"瞬间-东道主俄罗斯5-0完胜沙特>视频段实时检测导读 ...
DL之Yolov3：基于深度学习Yolov3算法实现视频目标检测之对《跑男第六季》第四期片视频段进行实时目标检测

DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对<跑男第六季>第四期片视频段进行实时目标检测完整视频请观看利用深度学习目标检测之对<跑男第六季>第四期片 ...
Query Generation Module-NTU用多样性的query生成，涨点基于文本的实例分割（已开源）

▊ 写在前面在本文中,作者解决的任务是基于文本的实例分割(referring segmentation,RES).在这个任务中,作为query的文本通常描述了实例之间的关系,模型需要根据这些关系来定 ...
BEFD：基于边界增强和特征去噪的血管分割

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为 ...
真正实用的退化模型：ETH开源业内首个广义盲图像超分退化模型，性能效果绝佳

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读本文针对有现有退化模型存在的问题,提出并设计了一种复杂但实用的新型退化方案.基于所设计的新型退化方案,对RRDBNet进行模型训练,无论是合成 ...
微软开源基于 Excel 的低代码语言 Power Fx

近日,微软推出了一款受 Excel 公式启发的低代码语言 PowerFx. 虽然 PowerFx 将成为整个微软自己的低代码 Power Platform 编写逻辑定制软件的标准,但由于该公司将这种语 ...