SwiftNet：实时视频对象分割 / 开普饭

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

在这项工作中，作者提出了用于实时视频对象分割(VOS)的SwiftNet，它报告了77.8%的J &F和70 FPS的DAVIS 2017 test-dev数据集，在所有现有解决方案的整体精度和速度性能中都非常出色。作者通过像素自适应记忆(PAM)在基于匹配的VOS中精心压缩时空冗余来实现这一目标。暂时地，PAM自适应地只在对象显示显著变化的帧上触发更新。在空间上，PAM只在临时变化的像素上执行内存更新和匹配，显著减少了在分割无关像素上浪费的计算量。此外，SwiftNet引入了一个光聚合编码器，通过简化参考编码来加速分割。该代码将被公开，作者希望SwiftNet可以作为有效的视频对象分割的强大基线，并促进视频对象分割在移动视觉中的应用。

论文创新点

总之，本文突出了三个主要贡献:

作者建议SwiftNet在整体分割精度和速度方面创造新的记录，从而为公开源代码的实时VOS提供一个强大的基线。
作者指出时空冗余是实时VOS的致命弱点，并利用像素自适应记忆(PAM)组合变化感知触发器和像素更新匹配来解决该问题。还引入了光聚合编码器(LAE)，以实现高效和全面的参考编码。
作者在DAVIS 2016和2017以及YouTube-VOS数据集上进行了大量的实验，以77.8%的J & f和70 FPS的速度达到最佳的整体分割精度和速度性能。

框架结构

SwiftNet方法的说明。先执行实黑线表示的操作生成分割掩码，然后用虚线进行内存更新。

这是一个压缩的非局部计算的示例，为了简单起见，省略了下标t。

通过卷积生成图像特征图，计算含亚像素的掩模特征图。

实验结果

在DAVIS17验证集上显示SwiftNet (ResNet-50)定量结果。

在DAVIS 2017验证集上的定量结果。在下面的所有表中，OL表示在线学习，实时方法位于水平线以下。

结论

作者提出了一种名为SwiftNet的实时半监督视频对象分割(VOS)解决方案，它提供了最佳的整体精度和速度性能。SwiftNet通过使用像素自适应内存(PAM)明确压缩基于匹配的VOS的时空冗余来实现实时分割。在PAM中，使用变化感知触发器减少了时间冗余，该触发器自适应地选择增量帧进行内存更新，同时忽略静态帧。空间冗余通过像素级内存更新和匹配模块消除，该模块放弃全帧操作，只渐进地处理暂时变化的像素。此外，光聚合编码器的设计有利于全面和加快参考帧编码。总的来说，SwiftNet是非常高效和兼容的，通过发布源代码，作者希望它能够为更多实时VOS解决方案的到来奠定坚实的基础。

论文链接：https://arxiv.org/pdf/2102.04604.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。深度学习爱好者或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

深度学习爱好者鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

· 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

· 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

· 深度学习爱好者默认每篇文章都是首发，均会添加“原创”标志

SwiftNet：实时视频对象分割

相关推荐