国科大、北方电子设备研究所联合提出首个多模态无人机跟踪数据集 / 开普饭

该研究为基于机器视觉和多模态融合方法的反无人机前沿技术研究及应用落地提供了数据基础、基线方法和评价指标，推动领域进展。

机器之心发布，机器之心编辑部

近日，中国科学院大学视觉实验室和北方电子设备研究所的一项联合研究工作取得了新进展。该项研究致力于基于机器视觉与多模态互感技术实时监控无人机空间位置和运动轨迹等信息，并首次提出了「反无人机」这一研究课题，同时，为推动领域进展，还发布了首个 Anti-UAV 多模态数据集——研究人员使用多种目前市面上常见的商用小型无人机型，采集并标注了超过 300 段可见光 / 红外视频对（含超过 58 万个目标），涵盖白昼、黑夜条件下云层、楼宇、丛林等复杂背景及飞鸟、空飘物等虚假目标带来的挑战。

此外，研究人员还针对「反无人机」问题提出了一种有效的基线方法——复杂环境下多模态小目标跟踪 DFSC 算法，并与超过 40 种的 State-of-the-Art tracker 算法模型进行了测试对比，结果表明，所提出的 DFSC 算法在该问题上取得了目前最优的性能表现。

当前，学术界在无人机检测跟踪领域的研究尚属空白，还没有相关工作提出公开可用的高质量基准数据集、基线方法和评价指标，这项研究将极大推动未来无人机检测跟踪前沿技术的发展。

研究人员已将 Anti-UAV 数据集，以及基线方法和评价指标源代码开源。

论文链接：https://arxiv.org/abs/2101.08466
GitHub Repo：https://github.com/ucas-vg/Anti-UAV

研究背景

近年来，商用小型无人机（UAV）产业在国内外发展日益蓬勃，已经成为我国经济发展新的增长点。无人机开始在节日里的灯光表演、体育比赛的高清航拍、灾后救援等各个场合频繁亮相，应用范围越来越广泛，但也随之产生了一系列严重的安全管控问题：未经许可闯入公共及敏感区域、意外坠落、影响客机正常起降、碰撞高层建筑等事件不断发生。

2018 年 2 月 7 日，在唐山市古冶区范各庄一片空地上，唐某等四人操纵一架无人机升空进行地形图航空测绘。无人机起飞不久就被解放军空军雷达检测发现为不明空情，致使空军出动两架战斗机查证，空中飞行员目视发现为固定翼无人机。严重扰乱空中管理秩序、耗费大量人力物力的罪魁祸首，却是「黑飞」的无人机。如果能够在惊动战机之前对入侵无人机进行精准探测，就能够采取有效反制措施最大化降低损失。

近年来，国内外不断出现的无人机「黑飞」事件，不仅对公民的个人隐私与生命财产安全造成了严重危害，而且对机场、军事基地、大型集会现场、核电站、政府部门驻地等敏感区域的安防造成了极大威胁。因此，开展复杂环境下低慢小（无人机）目标智能感知的研究，从而对无人机进行有效的探测、监管和必要的反制，具有重要意义。

Anti-UAV 数据集

目标跟踪（object tracking）技术旨在基于实时动态视频流数据精准定位目标，已被广泛用于视频监控、海上救助、自动驾驶等领域。现有研究中，大多数跟踪器均基于可见光 RGB 信息，弱光条件下可能导致结果误判。其它部分研究虽然使用红外（IR）信息，但受制于低分辨率，信息不足。

为了推动无人机跟踪领域的发展前沿，国科大和北方电子设备研究所的研究人员首次考虑将可见光和红外信息进行深度融合，针对复杂环境下的无人机目标进行跟踪，并构建了首个无人机多模态跟踪数据集——Anti-UAV。

研究人员采集了多种无人机型在空中飞行的多类视频，共包含 318 对高质量、高清晰度的 RGB-T 数据，其中，每对包含一段可见光视频和一段红外视频。此外，不同于已发布的标准多模态跟踪数据集，Anti-UAV 多模态数据是非对准的，鼓励学者进行相关研究，这也是未来利用多模态数据进行目标跟踪的新方向。

Anti-UAV 数据集共包括 6 种无人机型（主要为 DJI 和 Parrot）、两种光照条件（白昼和黑夜）、两种光照模式（红外和可见光）和各类背景（建筑物、云、树木等），存储格式为 mp4，帧率为 25fps。

为保证标注质量，研究人员采用「由粗到精」的策略对无人机目标的 bounding box 及类别、属性等信息进行标注，分为粗标注、精标注和检查校正三个阶段。

Anti-UAV 数据集包含训练集、验证集和测试集。其中，训练集和验证集取自同一视频非重叠片段，而测试集完全独立。目标在测试集中的运动范围更加复杂多样。

目标尺度整体波动较大，位置分布较为一致，如下图所示，左图中无人机位置分布一致，测试集中波动幅度相对较大，右图中三个集合存在相似的尺度分布，均值皆小于 40 pixels，测试集稍为集中。

由于以往不同 tracker 的细节差异很难从整体数据集的角度反映出来，研究人员还通过提供二值属性标签来帮助辨别不同反无人机跟踪器在各个方面的优缺点。这些属性包括 OV (Out-of-View)、OC (Occlusion)、FM (Fast Motion)、SV (Scale Variation)、LI (Low Illumination)、TC (Thermal Crossover) 和 LR (Low Resolution)。其中，在测试集中，OV 的占比较大。此外，在 Anti-UAV 中，FM 出现的情况也较多，这也是无人机跟踪任务中的一个难点问题。

评价指标

Anti-UAV 数据集使用的评价指标计算公式如下所示：

其中，IOUt 是每个跟踪 bounding box 与相应的 ground-truth 在并集上的交点；v 为 ground-truth 能见度标志（tracker 预测的 p 用来测量状态精度）；状态精度 SA 是一个序列中所有帧的平均值，所有视频序列 mSA 的平均状态精度作为最终评价结果；此外，精度和成功率也同样作为该数据集的评价指标。针对不同情况，研究人员还可将具体的评估情况分为以下三种：

protocol 1 采用可见光视频序列和红外视频序列分别对无人机跟踪器的性能进行评价，目的是验证在训练过程不使用含无人机目标的数据集的情况下，跟踪器对无人机跟踪的性能表现。
protocol 2 旨在提供一种独特的无人机跟踪评估准则，支持研究人员使用可见光或红外的反无人机训练视频序列来微调跟踪器或从零开始学习训练。
protocol 3 鼓励研究人员探索如何充分利用含无人机目标的可见光、红外多模态数据集。

方法

针对 Anti-UAV 数据集中的 Protocol2 评估方式，研究人员还提出了复杂环境下多模态小目标跟踪 DFSC 算法。无人机跟踪任务，首先是区分是目标还是非目标，即使针对不同域的视频流，其前景信息也是相关的。DFSC 算法正是受到该想法的启发，将基于不同域的视频训练所学习的特征进行深度融合与交互感知，使得算法模型针对复杂环境下的小目标跟踪具有更高的精度和更强的鲁棒性。下图为 DFSC 算法示意图。

点击查看大图

实验结果

基于以上评价指标，研究人员利用现阶段 State-of-the-Art trackers 进行了大量的对比实验。

基于 protocol 1 评估方式，研究人员使用超过 40 种 State-of-the-Art trackers 在 Anti-UAV 的验证集和测试集上进行了对比实验。以下两个表格分别为各 tracker 在 Anti-UAV 测试集和验证集上的结果。实验结果表明：在 Anti-UAV 的测试集上，大多数情况下 SiamRCNN 和 GlobalTrack 相比于其他 tracker 的性能表现更好。这两种 tracker 在除 FM、LR 和 LI 属性外，性能表现相当。SiamRCNN 在以上三种属性中以超过 4.00% mSA 的优势处于领先地位。对于验证集，GlobalTrack 在 OC 和 LI 两种属性上略微领先，而 SiamRCNN 在其他属性上的性能表现均为最优。特别是在 OV、TC 和 LR 上，SiamRCNN 的性能表现远优于其它 tracker。

可以看出，对于无人机跟踪任务，基于深度学习的 tracker 效果普遍优于传统基于手工设计特征的方法，且性能表现突出的几种方法均为基于长时（long-term）的 tracker（长时中可能出现目标完全遮挡或消失后重现的情况，有益于 tracker 学习更多知识，而短时（short-term）中没有）。

基于 protocol 2 评估方式，下表为不同训练策略下在 Anti-UAV 上的实验结果对比。可以看出，所提出的 DFSC 算法在红外和可见光上都取得了最优的性能表现。与常规训练策略相比，DFSC 算法在验证集和测试集上分别获得了 0.49% mSA 和 0.68% mSA 的性能提升。对于可见跟踪序列，DFSC 算法在验证集和测试集上分别获得了 0.48% mSA 和 0.57% mSA 的性能提升。与大尺度训练策略相比， DFSC 算法在验证集上有明显的性能提升。

当前，学术界在无人机检测跟踪领域的研究尚属空白，还没有相关工作提出公开可用的高质量基准数据集、基线方法和评价指标。总体而言，这项工作首次提出了「反无人机」这一研究课题，为推动领域进展，发布了首个 Anti-UAV 多模态数据集——研究人员使用多种目前市面上常见的商用小型无人机型，采集并标注了超过 300 段可见光 / 红外视频对（含超过 58 万个目标），涵盖白昼、黑夜条件下云层、楼宇、丛林等复杂背景及飞鸟、空飘物等虚假目标带来的挑战。

Anti-UAV 作为一种多模态无人机检测跟踪 benchmark，将极大推动未来相关前沿技术研究的发展和应用落地。基于该数据集，研究人员已依托 CCF A 类国际会议、计算机视觉与模式识别领域顶级会议 CVPR 2020 组织了首届「反无人机」研讨会和挑战赛，并即将依托 CCF A 类国际会议、计算机视觉领域顶级会议 ICCV 2021 组织第二届「反无人机」研讨会和挑战赛。欢迎各位学者、同行积极参与，共同探讨、突破无人机视觉感知领域的痛难点问题。

主要作者简介

蒋楠

蒋楠，2018 年毕业于西安交通大学电子与信息工程学院，本科信息工程专业，2018 年 9 月至今在中国科学院大学攻读硕士学位。

赵健

赵健（https://zhaoj9014.github.io/），2012 年获得北京航空航天大学学士学位，2014 年获得国防科技大学硕士学位，博士就读于新加坡国立大学，师从新加坡国立大学冯佳时教授和新加坡工程院院士、ACM/IEEE/IAPR Fellow 颜水成教授，2019 年获得博士学位，现为北方电子设备研究所助理研究员。入选「北京市科协 2021-2023 年度青年人才托举工程」，VALSE 执行领域主席、CSIG-BVD 委员。主要研究领域为人工智能、机器感知与机器视觉。目前，共主持/参与创新特区项目 3 项（序 1/3/5），主持国自然青年科学基金项目 1 项。近 5 年已授权国家专利 3 项（序 1），发表高水平学术论文 40 余篇，单篇影响因子最高 17.86，其中，以第一作者发表 CCF A 类论文 10 篇（含 2 篇 T-PAMI、2 篇 IJCV）。曾作为第一作者获得ACM MM 2018最佳学生论文奖及多项国际竞赛冠亚军。

韩振军

韩振军，中国科学院大学电子电气与通信工程学院副教授/中国科学院青促会会员，2006 年获得天津大学学士学位，2009 和 2011 年分别获得中国科学院研究生院工学硕士与工学博士学位。主要研究领域为图像处理和计算机视觉。先后主持了国家自然科学基金青年科学基金项目 1 项、中国科学院研究生院院长基金 A 类 1 项、航天某院项目 1 项及华为公司横向课题 1 项等。在包括 TPAMI、TCSVT、TIP、TITS、PR、CVIU、Neurocomputing、TOMM、CVPR、WACV 等在内的期刊和会议（合作）发表论文 50 余篇。授权发明专利 9 项，授权软著 5 项。获得中国电子学会自然科学类二等奖 1 项，中国科学院大学领雁银奖（振翅奖）及中国科学院院长奖。

国科大、北方电子设备研究所联合提出首个多模态无人机跟踪数据集

相关推荐