推荐!京东开源姿态跟踪新框架LightTrack!


也是最近最值得参考的姿态跟踪方面的工作~

在论文《LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking》中,作者详细介绍了该算法框架。

该论文是由京东数字科技美国研发中心的研究人员发表的。

姿态跟踪

姿态跟踪是指在视频中对多人进行姿态关键点定位与跟踪,这是一项综合性技术,如下图所示,展示了LightTrack 框架的的主要部分。

LightTrack采用的是置顶向下的姿态估计方法,即先检测到人体,然后再针对每个人进行人体关键点定位。

在跟踪的过程中,涉及到姿态估计、目标跟踪成功、目标丢失等状态的转换。

另外,因为是对多人跟踪,所以涉及到对不同帧中人体个体的关联。

LightTrack是一种在线计算的姿态跟踪,即只使用当前帧及之前的视频帧,这更加符合现实中实时应用的场景。而很多离线计算的姿态跟踪,则会使用未来帧的数据。

所以这是一项综合性的计算机视觉问题,涉及到目标检测、姿态估计、多目标跟踪、行人重识别,并需要协同配合。

LightTrack算法方案

人体检测部分使用Deformable FPN算法,来自论文:

J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, andY. Wei. Deformable convolutional networks. CoRR,abs/1703.06211, 1(2):3, 2017.

T.-Y. Lin, P. Dollar, R. B. Girshick, K. He, B. Hariharan, and ´S. J. Belongie. Feature pyramid networks for object detection. In CVPR, volume 1, page 3, 2017.

使用论文提供的预训练模型。

检测只在关键帧做。

单人姿态估计部分使用CPN101  与 MSRA152模型,分别来自论文:

Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, and J. Sun.Cascaded Pyramid Network for Multi-Person Pose Estimation. In CVPR, 2018.

B. Xiao, H. Wu, and Y. Wei. Simple baselines for humanpose estimation and tracking. ECCV, 2018.

并做了轻微改进。

多目标跟踪和行人重识别部分,作者将其建模为姿态匹配问题,即在上一帧人体位置扩大范围(+20%)进行单人姿态估计,如果检测到人体姿态,则将这些人体姿态与上一帧人体姿态进行匹配,使用的方法是孪生图卷积神经网络(如下图所示)。

如果没检测到人体,则认为是目标丢失。

作者发现这种简单扩大范围姿态估计,然后再进行姿态匹配的方法是行之有效的。如下图:

上图人物在镜头焦距突变的时候,虽然场景和人体表面特征变化比较大,但人体姿态变化并不大。

另外如果在关键帧人体检测中出现了新目标,也使用上述姿态匹配的方式进行人物个体关联,相当于行人重识别。

实验结果

作者在Posetrack 2017 Test set 与 Posetrack 2018 Validation Set 进行了实验。

结果如下:

可见,即使与目前精度最高的离线姿态跟踪算法(HRNet CVPR2019 | 微软、中科大开源基于深度高分辨表示学习的姿态估计算法)相比,LightTrack也取得了可匹敌的精度。

与在线计算的姿态跟踪算法PoseFlow、JointFlow比,则取得了大幅的精度提升,而且帧率也更高(使用Telsa P40 GPU,达到47/48 fps)。

值得一提的是,该框架不仅是一套完整的姿态跟踪算法,而且还允许用户非常容易地对该流程中的各个步骤进行替换、改进与评估,是该领域进一步研究的绝好工具!

下图为姿态跟踪的部分示例:

(0)

相关推荐