打遍天下无敌手,却说它只是个baseline!多目标跟踪FairMOT的烦恼

你有没有遇到过这样的烦恼,绞尽脑汁憋出了个别人没做多的idea,感觉弥补了现今理论的重大漏洞,必定实现精度和速度的比翼齐飞!可是费了九牛二虎之力跑完了实验,结果却一点改进也没有。

唉!

[抱抱] 这是科研之日常~

不过前几天新出的一篇多目标跟踪的论文,在主流的多目标跟踪数据集上结果异常好,几乎打败之前所有State-of-the-art算法,但作者却称该算法只是个baseline,而且是simple baseline!

该文即 A Simple Baseline for Multi-Object Tracking :

作者来自华中科技大学和微软亚洲研究院。

目前多目标跟踪算法基本都是以目标检测和目标重识别(ReID)为核心组件,目标检测是为了发现当前画面所有的目标,ReID则是将当前所有目标与之前帧的目标建立关联,后一步可以通过ReID特征向量的距离比较和目标区域交并比(IOU)来建立关联。

看起来思路还是很直接的,目标检测和ReID结合的方式就成为了多目标跟踪方法技术分类的依据。

作者指出目前方法多可归纳为两类。

1. 两步法 Two-Step MOT Methods

先进行目标检测,然后对于检测到的目标resize到固定大小,然后提取ReID特征,这种方法很显然的好处是,目标尺度被很好的归一化了,但明显的问题是目标检测和ReID特征提取之间没有特征复用,计算成本很高。

2. 一步到位法 One-Shot MOT Methods

目标检测的同时也进行ReID特征提取,现有的方法比如Track-RCNN、JDE(Towards real-time multi-object tracking)直接在Mask R-CNN、YOLOv3的检测端并行加入ReID特征向量输出。很显然这能节约计算时间,但作者研究发现此类方法存在目标ID关联不正确的问题。

该文研究的即 One-Shot MOT Methods 类方法,认为现有的此类别的多目标跟踪方法使用了anchor-based 类目标检测,目标的ReID特征是在anchor区域提取的,anchor 和目标区域会出现不对齐的问题,这会导致网络训练时存在严重的歧义。

如下图,

左图红色和黄色框都是为了估计蓝色衣服人位置的anchor,但其都与目标存在较大的位置偏差,在这些anchor上提取特征并告诉ReID网络来自同一个人,是不合适的。

算法改进

【改进点一】

作者解决的办法其实也很简单的,那就是不要使用基于anchor的目标检测方法嘛,用anchor-free的方法,尤其是以 Objects as points 为代表的方法,将目标检测看作为目标中心点检测的问题,依此中心点输出ReID特征。

看起来不错!

【改进点二】

另外,两步法对尺度变化不敏感,为加强处理One-Shot MOT 类方法对大小目标通杀,作者引入了Multi-Layer Feature Aggregation,将网络高层次和低层次特征融合。

也很有道理!

【改进点三】

通常ReID问题中特征向量维度越大表现越好,但这需要大量的训练数据。在多目标跟踪的ReID问题中数据并不丰富,作者发现维度小一点其实更好,降低了过拟合的风险,还可以减少计算量。

犀利的眼光!

该文选择了 Objects as points 目标检测方法,算法框架如下:

图像经编码器-解码器网络输出两个任务,目标检测和ReID特征提取,检测部分输出候选目标中心点热图heatmap、目标包围框大小 box size、目标中心相对原图实际位置的偏移量 center offset。

ReID特征提取部分则是输出所有候选目标中心点的128维ReID特征,所以检测部分结果出来,其对应的ReID特征就有了。

作者称该算法为FairMOT,意即目标检测和ReID特征提取兼顾的多目标跟踪算法。

实验结果

重头戏到了,以上改进看起来只是算法替换和小打小闹,却带来了异常惊艳的结果!

与其他one-shot 跟踪算法的比较:

精度和速度都是大幅超越,完胜!

与其他在线跟踪器包括多个 two-step 方法 state-of-the-art 在多个数据集上的比较:

在大多数指标下都是大幅超越第二名的完胜,少部分不是第一的,也是接近顶尖的水平。

而且相比其他算法速度也很快,达到30FPS。

以下是作者跑出来的一些结果:

虽然人多的画面各个目标框人眼已经难以区分,但大家可以明显感觉到在人群如此拥挤的情况下各个框的稳定性非常好。

FairMOT是目前最好的多目标跟踪算法,而且代码开源了。

该文没有提出惊世骇俗的理论,只是发现了以往算法的重大缺陷,替换修补之,结果却很惊艳!这样的论文对你有启发吗?欢迎留言讨论!

论文地址:

https://arxiv.org/abs/2004.01888

代码地址:

https://github.com/ifzhang/FairMOT

END

备注:跟踪

目标跟踪交流群

目标跟踪、视觉跟踪等更多最新技术,

若已为CV君其他账号好友请直接私信。

在看,让更多人看到

(0)

相关推荐

  • ECCV 2018 | CornerNet:目标检测算法新思路

    极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖 ...

  • 一位算法工程师从30+场秋招面试中总结出的超强面经——目标检测篇(含答案)

    作者丨灯会 来源丨极市平台 编辑丨极市平台 极市导读 作者灯会为21届中部985研究生,凭借自己整理的面经,去年在腾讯优图暑期实习,七月份将入职百度cv算法工程师.在去年灰飞烟灭的算法求职季中,经过3 ...

  • 【目标检测算法解读】yolo系列算法三

    前言 本文是yolo系列算法文章的第三篇,也是目前为止yolo系列算法的最终篇.从原理上看,yolov3并没有实质性的创新,主要是借鉴了一些时下state-of-the-art模型的优秀思想.本文重点 ...

  • CVPR 2018 | Repulsion loss:专注于遮挡情况下的行人检测

    极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖 ...

  • ECCV 2018 | 行人检测全新视角:从人体中轴线标注出发

    极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖 ...

  • 计算机视觉技术在安防领域的案例实践 [ EGO演讲实录 ]

    2017年4月,EGO北京分会邀请到了格灵深瞳首席架构师苑维然老师为大家分享格灵深瞳在安防领域的计算机视觉技术实践.本文根据现场演讲整理,有删节. 作者|苑维然 编辑|赵新龙 1.引言 人类85%以上 ...

  • 涨点技巧!小目标检测:数据增广

    近年来,目标检测算法取得了很好的成绩,但是,小目标和大目标的检测性能差异较大.小目标检测是目标检测中必不可少且具有挑战性的问题,在人脸检测.交通标记.缺陷检测等领域都是其重要挑战.缓解小目标检测问题的 ...

  • 霸榜 GitHub:又一款神器面世!

    不论你需要通用目标检测.实例分割.旋转框检测,还是行人检测.人脸检测.车辆检测等垂类算法: 不论是精度效果超强,还是超轻量适合在边缘部署的算法: 不论你是学术科研工作者,还是产业开发者: 不论你是刚入 ...

  • 目标检测学习笔记

    这篇是看完吴恩达老师的 deeplearning.ai 课程里目标检测课程的学习笔记,文章的图片主要来自课程. 目录如下: 目标定位 基于滑动窗口的目标检测算法 滑动窗口的卷积实现 Bounding ...

  • CenterNet:目标即点(代码已开源)

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

  • 综述:目标检测二十年(2001-2021)

    作者丨派派星 来源丨CVHub 编辑丨极市平台 极市导读 目标检测领域发展至今已有二十余载,本文将对目标检测领域近20年的发展做一次系统性的介绍,并为目标检测构建一个完整的知识体系架构. 引言 目标检 ...

  • 竞赛冠军方案:2020珠港澳人工智能算法大赛双料冠军解读

    团队介绍 团队来自深圳市威富视界有限公司.中国科学院半导体研究所,队长为宁欣副研究员,成员分别为石园.刘江宽.支金林.王镇.荣倩倩,排名不分先后. 珠港澳人工智能算法赛题介绍 以检测和识别为核心的各项 ...

  • DL之Yolo:Yolo算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

    DL之Yolo:Yolo算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略 相关文章 CV:人工智能之计算机视觉方向的简介(常用数据集+CV职位).传统方法对比CNN类算法.计算机视觉八大 ...

  • 机器视觉编码技术与标准进展

    正文字数:8411  阅读时长:15分钟 本文整理自中国电信研究院新技术所机器视觉标准与应用研究部主任张园在LiveVideoStack做的线上分享.她详细介绍了VCM.DCM等标准组织机器视觉编码标 ...

  • FoveaBox,超越Anchor-Based的检测器

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...