PandaNet:基于Anchor的多人三维姿态估计

点击上方“深度学习爱好者”,选择加"星标"或“置顶

重磅干货,第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

以往的三维人体姿态估计研究大多集中在单个人的情况下或在高分辨率下估计少数人的三维姿态。在本文中,我们提出了一种基于Anchor的、单阶段回归的多人三维姿态估计框架,该框架允许在低分辨率下对大量的人进行姿态估计。地面真相翻译和尺度被用于可视化。

摘要

最近,一些深度学习模型被提出用于三维人体姿态估计。然而,这些方法大多只关注单个人的情况,或在高分辨率下估计少数人的3D姿态。此外,许多应用,如自动驾驶或人群分析,需要在低分辨率下估计大量的人的姿态。在这项工作中,我们提出了PandaNet(基于Anchor的姿态估计和检测网络),一种新的单阶段回归,基于Anchor和多人的三维姿态估计方法。所提出的模型执行边界盒检测,并对每个被检测的人,将2D和3D姿态回归为单一的向前传递。它不需要任何后处理来重新组合关节,因为网络预测每个包围框的完整3D姿态,并允许在低分辨率下估计可能大量的人的姿态。为了管理人员重叠,我们引入了一种姿态感知的锚点选择策略。此外,由于图像中不同大小的人之间存在不平衡,且这些大小的关节坐标具有不同的不确定性,我们提出了一种自动优化不同大小的人和关节的权重的方法,以实现有效的训练。PandaNet在几个具有挑战性的数据集上超越了以前的单阶段回归方法:一个多人城市虚拟但非常真实的数据集(JTA数据集),以及两个真实世界的3D多人数据集(CMU Panoptic和MuPoTS-3D)。

创新点
  • 第一,采用基于锚的表示方法。与主题匹配的锚存储其完整的3D姿态。这避免了由关节阻塞引起的问题。此外,这种基于锚的公式允许比热图更低的分辨率输出,因为单个输出像素足以存储整个主题的姿态。这一特性对于在低分辨率下高效地处理人员非常重要。

  • 第二,姿态感知的锚点选择策略在推理过程中摒弃了模糊的锚点。事实上,模糊的锚点重叠了几个人的部分,不允许读取一致的3D姿势。

  • 第三,具有同方差不确定性的损失自动加权处理图像中人物尺寸的不平衡和与人体姿态预测相关的不确定性。

网络结构

PandaNet架构

输入图像通过骨干网传送。第二个阶段用于在多个分辨率和语义级别上计算金字塔特征映射(如FPN所做的)。4个3x3的卷积应用于这些特征地图。生成的地图然后被更新采样到最高分辨率的特征地图的大小。在多尺度特征拼接和亚像素卷积后,使用四个卷积头来提供四种输出。每个头由4个3x3的卷积和最后一个用于输出的卷积层组成

PandaNet是一种基于LapNet的多任务网络,LapNet是单次目标检测模型,目前具有最好的准确性/推理时间权衡。所提出的模型的体系结构与LapNet略有不同。首先,将亚像素卷积应用到特征图上,获得更高分辨率的图,这对低分辨率下的人体姿态检测和估计至关重要。其次,添加2D姿态和3D姿态回归头。

损失函数

每部分损失函数的具体计算方式:

实验结果

JTA数据集结果

CMU Panoptic 数据集结果

MuPoTS-3D数据集结果

结论

PandaNet是一种新的基于Anchor的单阶段回归多人姿态估计模型,能够有效地处理人多、规模变化大、人重叠的场景。该模型以一种单镜头的方式预测人们包围的盒子和他们相应的2D和3D姿势。为了更好地管理人员重叠,我们引入了一种姿态感知的Anchor选择策略,该策略摒弃了模糊Anchor。此外,自动权重还提供了三种主要用途。它平衡了特定任务的损失,补偿了人员规模的不平衡,管理了与关节坐标相关的不确定性。实验验证了所提出的基于锚的多人姿态回归框架,并证明了姿态感知Anchor选择策略和自动加权的重要性。此外,在JTA、CMU Panoptic和MuPoTS-3D数据集上进行的大规模实验表明,PandaNet优于以往的单阶段回归技术。

论文下载:https://arxiv.org/pdf/2101.02471.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

(0)

相关推荐