GDR-Net：用于单目6D目标姿态估计的几何引导直接回归网络

2024-07-29 17:13:08

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

基于单一RGB图像的6D姿态估计是计算机视觉中的一项基本任务。目前性能最好的基于深度学习的方法依赖于一种间接策略，即首先建立图像平面坐标与目标坐标系的2D-3D对应关系，然后应用PnP/RANSAC算法的一种变体。然而，这两个阶段的管道不是端到端可训练的，因此很难用于许多需要可微位姿的任务。另一方面，基于直接回归的方法目前还不如基于几何的方法。在这项工作中，作者对直接和间接方法进行了深入研究，并提出了一种简单而有效的几何引导直接回归网络(GDR-Net)，以端到端的方式从基于密集对应的中间几何表示中学习6D姿态。大量的实验表明，作者的方法显著优于最先进的方法在LM, LM- o和YCB-V数据集。

代码链接：https://github.com/THU-DA-6D-Pose-Group/GDR-Net

论文创新点

在这项工作中，作者建议通过建立2D-3D对应来克服这些限制，同时以完全可微的方式计算最终的6D姿态估计。在其核心，作者提出学习PnP优化，利用事实，通信组织在图像空间，这给了一个显著的提高性能，超过了所有以前的工作。综上所述，作者做出了以下贡献:

作者重新考察了直接6D姿势回归中的关键成分，并观察到，通过为姿势参数选择适当的表示，与最先进的基于对应的间接方法相比，基于直接回归的方法表现出具有竞争力的性能。
作者进一步提出了一种简单而有效的几何引导直接回归网络(GDR-Net)，通过利用基于密集对应的中间表示的几何引导来提高直接6D位姿回归的性能。

框架结构

GDR-Net的插图。作者通过利用包括2D-3D密集对应和表面区域注意在内的中间几何特征的指导，使用CNN和可学习的Patch-PnP直接从单个RGB回归6D对象姿态。

GDR-Net框架。给定一个RGB图像I，作者的GDR-Net将放大后的RoI(用于训练的动态放大，用于测试的现货检测)作为输入，并预测几个中间几何特征。然后，PatchPnP直接从密集对应(M2D-3D)和表面区域注意(MSRA)回归6D对象姿态。

实验结果

合成球上PnP变异体的结果

结论

在这项工作中，作者重新审视了直接6D位姿回归的成分，并提出了一个新的GDR-Net来统一直接和基于几何的间接方法。关键思想是利用中间几何特征，将2D- 3d对应定期组织成类似图像的2D patch，这有助于作者利用简单而有效的2D卷积Patch-PnP从几何引导直接回归6D姿态。该方法实现了实时、准确、鲁棒的单目6D目标姿态估计。在未来，作者希望将作者的工作扩展到更具挑战性的场景，例如缺乏注释的真实数据[55,34]和看不见的对象类别或实例[56,37]。

论文链接：https://arxiv.org/pdf/2102.12145.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。深度学习爱好者或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

深度学习爱好者鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

· 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

· 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

· 深度学习爱好者默认每篇文章都是首发，均会添加“原创”标志

WACV 2021 论文大盘点-姿态估计篇

编辑:CV君本篇继续总结姿态估计相关论文, 3D 的占大多数,有 3D 姿势.形状估计,还有 3D 手部姿势估计.还有人脸姿态估计.跨物种姿态估计等. 共计 13 篇,如有遗漏,欢迎补充. 下载包含 ...
45篇，CVPR 2019 Best paper Finalist！最佳论文入围合集（含论文地址与代码链接）

三大世界顶级计算机视觉会议之一「计算机视觉与模式识别会议」(Conference on Computer Vision and Pattern Recognition 2019,CVPR 2019)在 ...
大盘点|基于RGB图像下的机器人抓取

干货第一时间送达前言近期读取了一些最新基于RGB图像下的机器人抓取论文,在这里分享下思路. 1.Optimizing Correlated Graspability Score and Grasp ...
ICCV 2019 | 微软开源跨视图融合的3D人体姿态估计算法，大幅改进SOTA精度

在H36M数据集上,MPJPE(关节点误差均值)从之前最好结果的52mm直降到26mm,可谓大幅改进,相信该算法必将成为该领域重要参考. 该文作者信息: 该文作者来自中国科技大学.微软亚洲研究院(MS ...
CVPR 2020｜开源实时“人手-物体”姿态估计算法HOPE-Net

向大家安利一篇CVPR 2020的论文 HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation,基于自适应图卷积技术,作者提出了一种 ...
基于图割优化的多平面重建视觉 SLAM（ISMAR2021）

本文来自于AR领域最著名的学术会议ISMAR,结合了之前介绍过的图割理论. 作者提出了一种语义平面 SLAM 系统,该系统使用来自实例平面分割网络的线索来改进位姿估计和映射.虽然主流方法是使用 RGB ...
【点云论文速读】RandLA-Net:大场景三维点云语义分割新框架

标题:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds 作者:Qingyong Hu, Bo Yang , ...
【点云论文速读】RevealNet: Seeing Behind Objects in RGB-D Scans

标题:RevealNet: Seeing Behind Objects in RGB-D Scans 作者:Ji Hou Angela Dai Matthias Nießner 来源:cvpr2020 ...
【泡泡图灵智库】Self6D:自监督单目6D目标位姿估计

泡泡图灵智库,带你精读机器人顶级会议文章标题:Self6D: Self-Supervised Monocular 6D Object Pose Estimation 作者: Gu Wang 1,2, ...
基于几何距离分解的单目三维目标检测

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为 ...
首个实时单目3D目标检测算法：RTM3D，代码将开源

基于单目图像的3D目标检测是在输入RGB图像的情况下估计目标的3D包围框,在自动驾驶领域非常有用. 今天来自中科院沈阳自动化所等单位的学者公布论文提出一种实时的单目3D目标检测算法RTM3D,快速版3 ...
ECCV2020|基于关键点的单目3D目标检测

论文原文:RTM3D:Real-timeMonocular3DDetectionfromObject KeypointsforAutonomousDriving 论文地址: https://www.a ...
基于RGB和深度数据的目标检测和姿态估计，用于实时、自适应机器人抓取

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
最新综述：基于深度学习方式的单目物体姿态估计与跟踪

原文:Deep Learning on Monocular Object Pose Detection and Tracking: A Comprehensive Overview 作者:中国人民大学 ...
基于深度学习的单目人体姿态估计方法综述（一）

原文:Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods 摘要: 基于视觉的单目人体姿态估计是计算机视觉中 ...
MO-LTR：基于单目RGB视频的多目标定位、跟踪与重建

干货第一时间送达标题:MO-LTR: Multiple Object Localization, Tracking and Reconstruction from Monocular RGB Vid ...
最新综述｜深度学习的单目人体姿态估计

向大家推荐一篇今天新出的人体姿态估计综述文章 Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods ,对20 ...

GDR-Net：用于单目6D目标姿态估计的几何引导直接回归网络

相关推荐