推荐!京东开源姿态跟踪新框架LightTrack!
也是最近最值得参考的姿态跟踪方面的工作~
在论文《LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking》中,作者详细介绍了该算法框架。
该论文是由京东数字科技美国研发中心的研究人员发表的。
姿态跟踪
姿态跟踪是指在视频中对多人进行姿态关键点定位与跟踪,这是一项综合性技术,如下图所示,展示了LightTrack 框架的的主要部分。
LightTrack采用的是置顶向下的姿态估计方法,即先检测到人体,然后再针对每个人进行人体关键点定位。
在跟踪的过程中,涉及到姿态估计、目标跟踪成功、目标丢失等状态的转换。
另外,因为是对多人跟踪,所以涉及到对不同帧中人体个体的关联。
LightTrack是一种在线计算的姿态跟踪,即只使用当前帧及之前的视频帧,这更加符合现实中实时应用的场景。而很多离线计算的姿态跟踪,则会使用未来帧的数据。
所以这是一项综合性的计算机视觉问题,涉及到目标检测、姿态估计、多目标跟踪、行人重识别,并需要协同配合。
LightTrack算法方案
人体检测部分使用Deformable FPN算法,来自论文:
J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, andY. Wei. Deformable convolutional networks. CoRR,abs/1703.06211, 1(2):3, 2017.
T.-Y. Lin, P. Dollar, R. B. Girshick, K. He, B. Hariharan, and ´S. J. Belongie. Feature pyramid networks for object detection. In CVPR, volume 1, page 3, 2017.
使用论文提供的预训练模型。
检测只在关键帧做。
单人姿态估计部分使用CPN101 与 MSRA152模型,分别来自论文:
Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, and J. Sun.Cascaded Pyramid Network for Multi-Person Pose Estimation. In CVPR, 2018.
B. Xiao, H. Wu, and Y. Wei. Simple baselines for humanpose estimation and tracking. ECCV, 2018.
并做了轻微改进。
多目标跟踪和行人重识别部分,作者将其建模为姿态匹配问题,即在上一帧人体位置扩大范围(+20%)进行单人姿态估计,如果检测到人体姿态,则将这些人体姿态与上一帧人体姿态进行匹配,使用的方法是孪生图卷积神经网络(如下图所示)。
如果没检测到人体,则认为是目标丢失。
作者发现这种简单扩大范围姿态估计,然后再进行姿态匹配的方法是行之有效的。如下图:
上图人物在镜头焦距突变的时候,虽然场景和人体表面特征变化比较大,但人体姿态变化并不大。
另外如果在关键帧人体检测中出现了新目标,也使用上述姿态匹配的方式进行人物个体关联,相当于行人重识别。
实验结果
作者在Posetrack 2017 Test set 与 Posetrack 2018 Validation Set 进行了实验。
结果如下:
可见,即使与目前精度最高的离线姿态跟踪算法(HRNet CVPR2019 | 微软、中科大开源基于深度高分辨表示学习的姿态估计算法)相比,LightTrack也取得了可匹敌的精度。
与在线计算的姿态跟踪算法PoseFlow、JointFlow比,则取得了大幅的精度提升,而且帧率也更高(使用Telsa P40 GPU,达到47/48 fps)。
值得一提的是,该框架不仅是一套完整的姿态跟踪算法,而且还允许用户非常容易地对该流程中的各个步骤进行替换、改进与评估,是该领域进一步研究的绝好工具!
下图为姿态跟踪的部分示例: