GDR-Net:用于单目6D目标姿态估计的几何引导直接回归网络
重磅干货,第一时间送达
小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
基于单一RGB图像的6D姿态估计是计算机视觉中的一项基本任务。目前性能最好的基于深度学习的方法依赖于一种间接策略,即首先建立图像平面坐标与目标坐标系的2D-3D对应关系,然后应用PnP/RANSAC算法的一种变体。然而,这两个阶段的管道不是端到端可训练的,因此很难用于许多需要可微位姿的任务。另一方面,基于直接回归的方法目前还不如基于几何的方法。在这项工作中,作者对直接和间接方法进行了深入研究,并提出了一种简单而有效的几何引导直接回归网络(GDR-Net),以端到端的方式从基于密集对应的中间几何表示中学习6D姿态。大量的实验表明,作者的方法显著优于最先进的方法在LM, LM- o和YCB-V数据集。
代码链接:https://github.com/THU-DA-6D-Pose-Group/GDR-Net
在这项工作中,作者建议通过建立2D-3D对应来克服这些限制,同时以完全可微的方式计算最终的6D姿态估计。在其核心,作者提出学习PnP优化,利用事实,通信组织在图像空间,这给了一个显著的提高性能,超过了所有以前的工作。综上所述,作者做出了以下贡献:
作者重新考察了直接6D姿势回归中的关键成分,并观察到,通过为姿势参数选择适当的表示,与最先进的基于对应的间接方法相比,基于直接回归的方法表现出具有竞争力的性能。
作者进一步提出了一种简单而有效的几何引导直接回归网络(GDR-Net),通过利用基于密集对应的中间表示的几何引导来提高直接6D位姿回归的性能。
GDR-Net的插图。作者通过利用包括2D-3D密集对应和表面区域注意在内的中间几何特征的指导,使用CNN和可学习的Patch-PnP直接从单个RGB回归6D对象姿态。
GDR-Net框架。给定一个RGB图像I,作者的GDR-Net将放大后的RoI(用于训练的动态放大,用于测试的现货检测)作为输入,并预测几个中间几何特征。然后,PatchPnP直接从密集对应(M2D-3D)和表面区域注意(MSRA)回归6D对象姿态。
合成球上PnP变异体的结果
结论
在这项工作中,作者重新审视了直接6D位姿回归的成分,并提出了一个新的GDR-Net来统一直接和基于几何的间接方法。关键思想是利用中间几何特征,将2D- 3d对应定期组织成类似图像的2D patch,这有助于作者利用简单而有效的2D卷积Patch-PnP从几何引导直接回归6D姿态。该方法实现了实时、准确、鲁棒的单目6D目标姿态估计。在未来,作者希望将作者的工作扩展到更具挑战性的场景,例如缺乏注释的真实数据[55,34]和看不见的对象类别或实例[56,37]。
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。深度学习爱好者 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
深度学习爱好者 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
· 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
· 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
· 深度学习爱好者 默认每篇文章都是首发,均会添加“原创”标志