一文概览 CVPR2021 最新18篇 Oral 论文
极市导读
本文为CVPR最新接oral的资源汇总贴,附有相关文章与代码链接。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
文章在Github上持续更新,欢迎大家 star/fork(点击阅读原文即可跳转):
https://github.com/extreme-assistant/CVPR2021-Paper-Code-Interpretation/blob/master/CVPR2021.md
在 极市平台 公众号后台回复关键词 “CVPR2021 Oral” 即可获取以下 18 篇论文打包下载。
一、为时间动作本地化建模多标签动作相关性
标题: Modeling Multi-Label Action Dependencies for Temporal Action Localization
链接: https://arxiv.org/pdf/2103.03027.pdf
现实世界中的视频包含许多复杂的动作,并且动作类之间具有固有的关系。本文提出了一种基于注意力的架构,该架构为未修剪视频中的时间动作本地化任务建模了这些动作关系。与先前利用动作的视频级同时发生的作品相反,本文区分了在相同时间步长发生的动作与在不同时间步长发生的动作(即彼此先后的动作)之间的关系,将这些不同的关系定义为动作依赖项。本文建议通过在新颖的基于注意力的多标签动作相关性(MLAD)层中对这些动作相关性进行建模来提高动作本地化性能。
二、实时高分辨率背景抠像
标题: Real-Time High Resolution Background Matting
链接: https://arxiv.org/abs/2012.07810
code: https://github.com/PeterL1n/BackgroundMattingV2
project: https://grail.cs.washington.edu/projects/background-matting-v2/
video: https://youtu.be/oMfPTeYDF9g
本文介绍了一种实时,高分辨率的背景替换技术,该技术可在4K分辨率下以30fps的速度运行,而在现代GPU上以60fps的高清速度运行。本文技术基于背景遮罩,其中捕获了背景的附加帧,并用于恢复alpha遮罩和前景层。主要挑战是要计算出高质量的Alpha遮罩,并保留股级头发细节,同时实时处理高分辨率图像。与以前的背景抠像技术相比,该方法产生了更高的质量结果,同时在速度和分辨率上都取得了巨大的进步。
三、探索具有对比场景上下文的数据高效3D场景理解
标题: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts
链接: http://arxiv.org/abs/2012.09165
project: http://sekunde.github.io/project_efficient
video: http://youtu.be/E70xToZLgs4
3D场景理解的快速进步与对数据的需求不断增长有关。但是,众所周知,收集和注释3D场景(例如点云)非常困难。例如,可以访问和扫描的场景数量(例如室内房间)可能会受到限制;即使有足够的数据,获取3D标签(例如,实例蒙版)也需要大量的人工。本文探索了3D点云的高效数据学习,提出了“对比场景上下文”,这是一种3D预训练方法,它同时利用了场景中的点级对应关系和空间上下文。值得注意的是,在ScanNet上,即使使用0.1%的点标签,使用完整注解的基准性能仍然达到89%(实例分割)和96%(语义分割)。
四、在动态室内环境中,通过空间划分的鲁棒神经路由可实现摄像机的重新定位
标题: Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments
链接: https://arxiv.org/abs/2012.04746
project: https://ai.stanford.edu/~hewang/
本文提出了一种新颖的异常感知神经树,它将两个世界,深度学习和决策树方法联系起来。它建立在三个重要的块上:(a)在室内场景上进行分层的空间划分,以构建决策树;(b)被实现为深度分类网络的神经路由功能,用于更好地理解3D场景;(c)离群剔除模块,用于在分级路由过程中滤除动态点。它可以通过空间分区实现鲁棒的神经路由,并且在摄像机姿势精度方面要比最新技术高出30%左右,同时运行速度也相当快。
五、通过3D扫描同步进行多主体分割和运动估计
标题: MultiBodySync: Multi-Body Segmentation and Motion Estimation via 3D Scan Synchronization
链接: https://arxiv.org/pdf/2101.06605.pdf
code: https://github.com/huangjh-pub/multibody-sync
本文介绍了MultiBodySync,这是一种新颖的,端到端的可训练多体运动分割和针对多输入3D点云的刚性配准框架。本文所研究的这种多扫描多体设置所带来的两个非同寻常的挑战是:(i)保证捕获多个不同身体或身体部位空间布局的多个输入点云之间的对应关系和分割一致性;文章提出了一种解决这些问题的方法,该方法将频谱同步合并到迭代的深度声明式网络中,以便同时恢复一致的对应关系以及运动分割。该方法可有效用于各种数据集,从关节物体的刚性零件到3D场景中的单个移动物体,无论是单视图还是全点云
六、用于单目三维目标检测的分类深度分布网络
标题: Categorical Depth Distribution Network for Monocular 3D Object Detection
链接: https://arxiv.org/abs/2103.01100
单眼3D对象检测是自动驾驶汽车的关键问题,因为与典型的多传感器系统相比,它提供了一种具有简单配置的解决方案。单眼3D检测的主要挑战在于准确预测物体深度,由于缺乏直接的距离测量,必须从物体和场景线索中推断出物体深度。许多方法尝试直接估计深度以辅助3D检测,但是由于深度不准确,结果显示出有限的性能。本文提出的解决方案分类深度分布网络(CaDDN)对每个像素使用预测的分类深度分布,以将丰富的上下文特征信息投影到3D空间中的适当深度间隔。然后,使用计算效率高的鸟瞰图投影和单级检测器来生成最终的输出边界框。本文将CaDDN设计为用于联合深度估计和对象检测的完全可区分的端到端方法。
七、学习多视图立体声
标题: PatchmatchNet: Learned Multi-View Patchmatch Stereo
链接: https://arxiv.org/abs/2012.01411
code: https://github.com/FangjinhuaWang/PatchmatchNet
PatchmatchNet,这是一种适用于高分辨率多视图立体声的Patchmatch的新颖且可学习的级联公式。与采用3D成本正则化的竞争对手相比,PatchmatchNet具有较高的计算速度和较低的内存需求,可以处理更高分辨率的图像,并且更适合在资源受限的设备上运行。本文首次在端到端可训练体系结构中引入了迭代的多尺度Patchmatch,并针对每次迭代使用了一种新颖且学到的自适应传播和评估方案来改进Patchmatch核心算法。
八、通过域随机化和元学习对视觉表示进行连续调整
标题: Continual Adaptation of Visual Representations via Domain Randomization and Meta-learning
链接: https://arxiv.org/abs/2012.04324
大多数标准的学习方法都导致脆弱的模型,当对不同性质的样本进行顺序训练时,它们容易漂移(众所周知的“灾难性遗忘”问题)。特别是,当一个模型连续从不同的视觉域中学习时,它倾向于忘记过去的模型,而倾向于最新的模型。在这种情况下,本文表明,学习本质上更健壮的模型的一种方法是域随机化-对于视觉任务,使用繁重的图像操作将当前域的分布随机化。在此结果的基础上,本文设计了一种元学习策略,其中调节器明确惩罚与将模型从当前域转移到不同的“辅助”元域相关的任何损失,同时还简化了对它们的适应。此类元域也通过随机图像处理生成。
九、神经几何细节水平:隐式3D曲面的实时渲染
标题: Neural Geometric Level of Detail:Real-time Rendering with Implicit 3D Surfaces
链接: https://arxiv.org/abs/2101.10994
code: https://github.com/nv-tlabs/nglod
project: https://nv-tlabs.github.io/nglod/
SDF逐渐成为3D形状的有效表示形式。最先进的方法通常使用固定大小的大型神经网络对SDF进行编码,以近似显示具有隐式表面的复杂形状。但是,由于这些大型网络的渲染在计算上是昂贵的,因为它要求每个像素都需要通过网络进行多次前向传递,因此对于实时图形来说,这些表示不切实际。本文引入了一种有效的神经表示,首次实现了高保真神经SDF的实时渲染,同时实现了最先进的几何重构质量。
十、预测器:低重叠的3D点云的注册
标题: PREDATOR: Registration of 3D Point Clouds with Low Overlap
链接: https://arxiv.org/pdf/2011.13005.pdf
code: https://github.com/ShengyuH/OverlapPredator
project: https://overlappredator.github.io/
本文引入了PREDATOR模型,该模型用于成对点云注册,它非常关注重叠区域。用于两点云的潜在编码之间的早期信息交换。以这种方式,将潜在表示转换为每个点特征的后续解码以相应的另一个点云为条件,从而可以预测哪些点不仅是显着的,而且还位于两个点云之间的重叠区域中。专注于与匹配相关的点的能力极大地提高了性能:PREDATOR在低重叠情况下将成功注册的比率提高了20%以上,还为3DMatch基准设定了89%的最新技术水平注册召回。
十一、通过保留推理时间的目标投影进行域泛化
标题: Domain Generalization via Inference-time Label-Preserving Target Projections
链接: https://arxiv.org/abs/2103.01134
在具有不同统计量的看不见的目标域上对在一组源域上训练的机器学习模型进行泛化是一个具有挑战性的问题。尽管已经提出了许多解决方法,但是它们仅在训练期间利用源数据,而没有利用推论时只有一个目标示例的事实。因此,本文提出了一种方法,该方法可以在推理过程中有效地使用目标样本,而不仅仅是分类。该方法包括三个部分(i)对源数据进行标签保留的特征或度量转换,以使源样本根据其类别进行聚类,而与域无关。(ii)针对这些特征训练的生成模型。(iii)通过使用学习的度量来解决生成模型输入空间上的优化问题,在推理过程中目标点在源特征流形上的保留标签的投影。
十二、全局一致的非刚性重建的神经变形图
标题: Neural Deformation Graphs for Globally-consistent Non-rigid Reconstruction
链接: https://arxiv.org/abs/2012.01451
project: https://aljazbozic.github.io/neural_deformation_graphs/
video: https://youtu.be/vyq36eFkdWo
本文引入了神经变形图,用于全局一致的变形跟踪和非刚性对象的3D重建。具体来说,本文通过深层神经网络对变形图进行隐式建模。该神经变形图不依赖于任何特定于对象的结构,因此可以应用于一般的非刚性变形跟踪。实验表明,该神经变形图在质量和数量上都优于最新的非刚性重建方法,重建性能提高了64%,变形跟踪性能提高了62%。
十三、粗标签的细粒度角度对比学习
标题: Fine-grained Angular Contrastive Learning with Coarse Labels
链接: https://arxiv.org/abs/2012.03515
在这些实际应用中,预先训练的标签空间无法保持固定以有效使用,并且需要对模型进行“专业化”以即时支持新类别。稀疏到极少的射击(C2FS)是一种特别有趣的场景,基本上被鲜为人知的文献所忽略,其中训练班(例如,动物)的粒度比目标(测试)类的“粒度更粗”(例如品种)。本文介绍了一种新颖的“角度归一化”模块,该模块可以有效地结合监督和自我监督的对比预训练来解决建议的C2FS任务,从而证明了在多个基准和数据集上的广泛研究中所取得的显著成果。
十四、通过稀疏采样进行视频和语言学习
标题: Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling
链接: https://arxiv.org/pdf/2102.06183.pdf
code: https://github.com/jayleicn/ClipBERT
规范的视频和语言学习方法(例如,视频问答)规定了一个神经模型,可以从视觉模型的离线提取的密集视频功能和语言模型的文本功能中学习。这些特征提取器是经过独立训练的,通常在与目标域不同的任务上进行训练,使这些固定特征对于下游任务而言不是最理想的。此外,由于密集视频特征的高计算量,通常难以(或不可行)将特征提取器直接插入现有方法中以进行微调。为了解决这一难题,本文提出了一个通用框架CLIPBERT,该框架通过使用稀疏采样(仅使用一个视频中的一个或几个稀疏采样的短片)来实现可负担的视频和语言任务的端到端学习。
十五、用于域自适应全景分割的跨视图正则化
标题: Cross-View Regularization for Domain Adaptive Panoptic Segmentation
链接: https://arxiv.org/abs/2103.02584
全景分割统一了语义分割和实例分割,这在近年来引起了越来越多的关注。但是,大多数现有研究是在有监督的学习设置下进行的,而在不同任务和应用中至关重要的无监督域自适应全景分割则被忽略了。本文设计了一种域自适应全景分割网络,该网络利用样式间的一致性和任务间正则化来优化域自适应全景分割。
十六、通过分层样式分解实现图像到图像的翻译
标题: Image-to-image Translation via Hierarchical Style Disentanglement
链接: https://arxiv.org/abs/2103.01456
code: https://github.com/imlixinyang/HiSD
近来,图像到图像的翻译在完成多标签(即,以不同标签为条件的翻译)和多样式(即,具有多种样式的生成)任务方面都取得了重大进展。但是,由于标签中未开发的独立性和排他性,通过对翻译结果进行不受控制的操作而挫败了现有的工作。本文提出了层次样式分离(HiSD)来解决此问题。具体来说,本文将标签组织成分层的树状结构,其中独立的标签,排他属性和解开的样式从上到下分配。相应地,设计了一种新的翻译过程以适应上述结构,其中确定了可控翻译的样式。
十七、开放世界中的目标检测
标题: Towards Open World Object Detection
链接: https://arxiv.org/abs/2103.02603
code: https://github.com/JosephKJ/OWOD
人类具有识别其环境中未知对象实例的天生的本能。当相应的知识最终可用时,对这些未知实例的内在好奇心有助于学习它们。这激励我们提出一个新颖的计算机视觉问题,称为“开放世界对象检测”,该模型的任务是:1)在没有明确监督的情况下,将尚未引入该对象的对象识别为“未知”,以及2)当逐渐接收到相应的标签时,逐步学习这些已识别的未知类别,而不会忘记先前学习的类别。本文提出了一个强有力的评估协议,并提供了一种新颖的解决方案,叫做ORE:基于对比聚类和基于能量的未知识别的开放世界物体检测器。
十八、使用Transformer的端到端视频实例分割
标题: End-to-End Video Instance Segmentation with Transformers
链接: https://arxiv.org/abs/2011.14503
视频实例分割(VIS)是一项需要同时对视频中感兴趣的对象实例进行分类,分割和跟踪的任务。最近的方法通常会开发复杂的管道来解决此任务。本文提出了一个基于Transformers的新视频实例分割框架,称为VisTR,该框架将VIS任务视为直接的端到端并行序列解码/预测问题。给定包含多个图像帧的视频剪辑作为输入,VisTR直接按顺序输出视频中每个实例的遮罩序列。核心是一种新的,有效的实例序列匹配和分段策略,该策略在整个序列级别上对实例进行监督和分段。VisTR从相似性学习的同一角度构建实例分割和跟踪,从而大大简化了总体流程。