用于「人-物交互检测」的可迁移交互知识 / 开普饭

本文出自上海交通大学卢策吾教授研究组，发表于人工智能领域顶级期刊 IEEE TPAMI。作者针对「人 - 物交互检测」任务（HOI）中的可迁移交互知识展开了研究，提出了一种二阶段的强大神经网络模型，通过一种层次化的方式同时利用了实例级、部位级的特征，在 HOI 任务取得了目前最佳的性能。

论文作者：Yong-Lu Li, Xinpeng Liu, Xiaoqian Wu, Xijie Huang, Liang Xu, Cewu Lu

发表期刊：IEEE TPAMI

发表时间：2021/01/25

论文链接：

https://www.aminer.cn/pub/5da2f8aa3a55ac3402d8c1f5/

代码链接：

https://github.com/DirtyHarryLYL/Transferable-Interactiveness-Network

摘要

「人 - 物交互检测」（HOI）对于理解人与物如何进行交互而言是一个重要问题。在本文中，我们针对 HOI 问题中的交互性知识（即一个人与一个物体是否相互作用的知识）展开了研究。我们发现，可以学习到跨多个 HOI 数据集的交互性知识，并以此弥平不同的 HOI 类别设定之间的差距。本文的核心思想是，利用一个学习交互性的网络（interactiveness network）根据多个 HOI 数据集中学习通用的交互知识，并在 HOI 分类推理前进行非交互抑制（NIS）。由于交互性存在泛化能力，可以将交互网络作为可迁移的知识学习器，它可以与任何 HOI 检测模型协同工作，从而获得理想的结果。我们以一种层次化的方式利用人的实例和身体部位特征，一同学习实例级和身体部位级别的交互性。在此基础上，我们提出了一种一致性任务来引导学习过程并提取更深层次的交互视觉依据。我们在 HICO-DET、V-COCO 和一个新构建的 PaStaNet-HOI 数据集上对本文所提出的方法进行了广泛的模型评价。通过使用学习到交互关系，本文提出的方法获得了优于目前最先进的 HOI 检测方法的性能，相关实验结果说明了其有效性和灵活性。

一、引言

「人 - 物」交互（HOI）检测旨在检索出人类和物体在静态图像中的位置，同时推断出它们之间的交互类别。作为视觉关系任务的一类子任务，HOI 与对人类身体和物体的理解紧密相关。HOI 对于行为理解至关重要，它对行为理解（activity understanding）、模仿学习（imitation learning）等任务都可以起到促进作用。近年来，人们通过使用深度神经网络在该领域取得了令人瞩目的研究进展。

通常而言，在 HOI 检测任务中，首先需要检测出人类和物体。给定一张图片及其中的检测结果，往往会得到大量的「人 - 物」对。HOI 任务旨在将这些「人 - 物」对分类到不同的 HOI 类别中。以往的许多单阶段方法直接将某个「人 - 物」对分类为特定的 HOI 类型。这些方法同时会隐式地预测交互性，这种交互性表示某个「人 - 物」对是否存在交互关系。例如，如果某个「人 - 物」对被分类为「吃苹果」（eat apple），则我们可以隐式地预测人和物之间存在交互。

尽管交互性对于 HOI 检测而言是一种至关重要的因素，但是先前的工作往往忽略了研究如何利用这种交互性，以及如何改进对交互性的学习。与各种 HOI 的类别相比，交互性传递了更加基本的信息，而它也使得我们更容易跨数据集进行迁移。

图 1：交互知识学习。（a）HOI 数据集包含隐式的交互知识。我们可以通过进行显式的交互判别更好地学习交互知识，并且利用它提升 HOI 检测的性能。（b）交互知识不仅仅局限于 HOI 类别，我们可以跨数据集学习这种交互只是，从而实现更大幅的性能提升。

基于上述思考，我们提出了一种如图 1 所示的「交互知识学习」方法。通过使用我们提出的方法，可以跨数据集学习到交互性，并且将其应用于任意特定的数据。通过利用交互性，我们使用两个阶段来识别 HOI：（1）判断某个「人 - 物」对是否存在交互关系；（2）将「人 - 物」对分类为特定的 HOI。与之前的单阶段方式相比，我们利用了强大的交互知识，从其它数据集中引入了更多的信息。因此，我们的方法可以显著地减少假正例的存在。此外，经过了第一阶段的交互性过滤后，我们并不需要处理大量非交互性的「人 - 物」对，而实际上这种非交互性的「人 - 物」对比存在交互关系的「人 - 物」对要多得多。

图 2：HOI 可以被表征为一个 HOI 图。人和物体可以被视为节点，而交互可以被表征为边。由所有节点构成的穷举配对将引入过多的非交互边，这会损害检测性能。本文提出的非交互抑制方法可以有效地减少非交互对，从而将稠密图转化为稀疏图，进而对 HOI 进行分类。

在本文中，我们提出了一种如图 2 所示的新型二阶段方法对「人 - 物」对进行层次化的分类，我们将这种方法称为可迁移的交互性网络（TIN），它由三个网络组成：（1）表征网络，即特征提取器，记为数学公式：R ；（2）HOI 网络，分类器，记为数学公式：C；（3）交互性网络，判别器，记为数学公式：D。其中，交互性网络数学公式：D 被创造性地用于「交互 / 非交互」二分类。它在两个阶段中都对模型有所助益。

首先，传统的 HOI 模型仅仅针对于 HOI 检测和分类任务。本文的 HOI 分类器数学公式：C 可以与交互性判别器数学公式：D 一同训练，从而同时学习 HOI 和交互性知识。通常情况下，非交互边在输入数据中占大多数。因此，通过利用根据 HOI 标签转化而来的二分类交互标签，我们可以使用更强的有监督约束训练整个模型，从而获得更好的模型性能和鲁棒性。

此外，交互网络数学公式：D 只需要根据 HOI 类别抽象出来的二分类标签，交互性是可迁移且可复用的。因此，数学公式：D 可以被用作可迁移知识学习器，从多个数据集中学习到交互性，并且被分别用于各个数据集。

在测试时，我们采取了二阶段策略。首先，交互性网络数学公式：D 通过利用学到的交互只是来评价某个「人 - 物」对（即交互图中的边）的交互性，从而将稠密的 HOI 图转化为稀疏图。此后，HOI 分类器数学公式：C 会对稀疏图进行处理，对剩下的边进行分类。

为了实现 TIN，我们提出了一种层次化的框架。首先，我们将人类 / 物体的外形和空间结构用作实例级的特征，从而学习实例之间的交互性。接着，我们进一步指出交互性是人体的部位紧密相关的重要特征。也就是说，当我们与日常中的物体进行交互时，往往只有某些身体部位参与其中。例如，在「读书」时，只有我们的头和手与书本会有强烈的关系，但是我们的下半身则不会与书本发生强烈的交互。而我们在阅读时，要么会站着，要么躺着。

因此，除了约定俗成的实例级特征，我们进一步定义了物体和人类身体部位之间的交互性（即部位交互性）。接着，我们会将人类身体部位特征与物体特征配对，用于学习这种部位交互性。显然，实例和部位交互性具有固有的隐含关系。它们之间的这种关系刚好符合多实例学习（MIL）的设定，即「实例交互性为负当且仅当所有的交互为负」。更明确地说，一个人与物体之间发生交互当且仅当至少有一个人体部位与物体发生交互。因此，通过输入不同级别的特征，我们可以将这种两个级别之间的一致性构建为学习中的一个目标。此外，我们需要更加关注具有较高交互性得分的身体部位。因此，我们进一步在 HOI 推理过程中使用部位注意力策略来强调重要的部位。在如图 10 所示的实验中，我们证明了：不同的 HOI 具有不同的部位交互模式。例如，我们学习到动作「骑」与脚、大腿、手的相关性要高于它与头和臀部的相关性。因此，这种注意力策略可以极大地帮助 HOI 的学习。

在本文中，我们在 HICO-DET、V-COCO 和一个新构建的 PaStaNet-HOI 数据集上展开了广泛的实验。通过将本文提出的方法与迁移的交互性结合起来，我们在 HICO-DET 数据集上的「Default」、「Rare」两个场景下分别在 mAP 指标上获得了超出目前最佳方法 1.53 和 4.35 的性能。

二、预备知识

三、模型与方法

我们将介绍用于提升 HOI 检测性能的交互性知识，我们会显式地判别非交互对，并且在进行 HOI 分类之前抑制这些非交互对。从语义的角度来说，「交互性」相比于传统的 HOI 类别提供了更为通用的信息。由于我们可以根据 HOI 标注为所有的「人 - 物」对赋予交互性的二分类标签，也就可以从具有不同 HOI 类别设定的多个数据集中学习到交互性知识，并将这些知识迁移到任意的特定数据集上。本文提出的 TIN 网络架构如图 3 所示。

图 3：TIN 网络架构。

交互网络 D 利用交互性来减少由于过多的候选非交互性对造成的假正例。此外，TIN 网络也包含了一些 HOI 任务惯用的模块，即表征网络 R 和分类网络 C。R 负责从检测到的实例中提取特征。C 利用节点和边的特征进行 HOI 分类。在测试时，两个阶段都会使用到 D。首先，D 会通过利用学习到的迁移知识评价边的交互性，并且对 C 应用非交互抑制（NIS）。接着，通过融合 D 给出的交互性得分，C 将会处理稀疏图并且对剩余的边进行 HOI 分类。

1. 表征网络和分类网络

人 - 物检测：在 HOI 检测任务中，首先需要检测出人类和物体。在本文中，我们沿用了论文「ican: Instance-centric attention network for human-object interaction detection」（Gao，et al. 2018）中检测人和物体的方式，并且采用了以 ResNet-50-FPN 作为主干网络的 Detectron 来获取边界框和检测得分。在后处理之前，我们会使用检测得分阈值对检测结果进行过滤。

表征网络：我们采用以 ResNet-50 为主干网络的 Faster R-CNN 作为表征网络。在训练和测试期间，R 会被固定并作为一个特征提取器。在得到检测框后，我们通过根据边框坐标裁剪出 ROI pooling 的特征图来生成人和物体的特征。

图 4：空间 - 姿态流的输入：姿态图、人类图、物体图。两张图片中的「Person 2」都与长颈鹿发生了「喂食」交互关系。但是两张图片中的「Person 1」都与长颈鹿没有交互关系。这些人类的姿态和位置信息对于判断交互性是有所帮助的。

分类网络：本文遵循多留架构和晚融合策略，通过人类流和物体流提取人类、物体、上下文的特征。每个流中都会采用残差模块、池化层、全连接层。我们还通过论文「Learning to detect human-object interactions」（Chao et al. WACV 2018）中的空间流对实例的空间位置进行编码（如图 4 所示）。（具体实现细节请参阅原文）此外，我们采取了晚融合策略，每个流会首先进行 HOI 分类，再以相同的比例将人类流和物体流的预测得分进行对应位置上的元素相加，接着将二者之和与空间流的得分相乘，从而得到分类网络 C 的最终结果。

四、实验

接下来，我们将首先介绍实验使用的数据集和模型度量标准，具体的模型实现细节请参阅原文。接着，我们将介绍两种实验的模式设定，即「默认的联合训练模式」和「迁移学习模式」。我们将给出 HOI 检测的定量和定性结果，并将其与目前最先进的方法进行比较。最后，我们将通过消融实验验证本文提出的模型中各组件的有效性。

1. 数据集

在实验中，作者采用了三个 HOI 数据集：HICO-DET、V-COCO、HAKE。其中，HICO-DET 和 V-COCO 数据集为 HOI 问题的通用数据，HAKE 为本文作者构建的数据集。HAKE 数据集提供了超过 118,000 张图像，包含 285,000 个人类实例，250,000 个与人有交互的对象，724,000 个包含人体部位状态的 HOI 对。为了更好地评估本文提出的模型，我们重新划分了 HAKE 数据集，从而构建了一个较大的对比基准 PaStaNet-HOI。

PaStaNet-HOI 包含超过 110,000 张图像（其中训练集、验证集、测试集分别包含 77,260、11,298,、22,156 张图像），其涉及的交互类型与 HICO-DET 相近，但规模要远大于 HICO-DET。此外，我们排除了 80 种无交互的类别，最终定义了 520 种 HOI 类别。这可以有效缓解 HICO-DET 存在的标注缺失问题。

2. 默认联合学习模式

在默认联合学习模式下，HOI 分类器 C 会与交互网络 D 一同训练。整个网络框架会以层次化的分类任务（即显式的交互性判别以及 HOI 分类）展开训练。整体的损失函数为：

数学公式: $ L=L^C+L^D $

其中，数学公式: $ L^C $ 为 HOI 分类任务的交叉熵损失，数学公式: $ L^D $ 为交互性二分类交叉熵损失。

在默认联合学习模式下，网络 C 和网络 D 中的卷积模块可以共享权值，即数学公式: $ H^D $、数学公式: $ O^D $ 可以与数学公式: $ H^C $、数学公式: $ O^C $ 共享权值。这种权值共享策略可以保证信息共享，并且可以更好地在多任务训练中优化 D 和 C。

图片: https://uploader.shimo.im/f/WIOKokTi5zHitXWZ.png

表 1：模式设定。RCD 为默认联合学习模式，其中 R、C、D 分别指表征网络、分类网络、交互网络。数学公式: $ RCD_i $ 代表迁移学习模式，我们使用越来越大的数据集数学公式: $ D_i $ 来训练模型，角标 i 的取值范围为 1 到 3 的整数，分别代表（1）V-COCO 或 HICO-DET（2）V-COCO 和 HICO-DET（3）HAKE。

3. 迁移学习模式

由于交互性可以泛化，在迁移学习模式下，我们可以将交互网络 D 用作迁移知识的学习器，从多个数据集中学习交互性，并将这种交互性分别应用到每个数据集上。此时，我们会分别训练网络 C 和 D。尽管不能进行权值共享，但是独立的训练使 D 可以学习到数据集的交互知识，这样引入了灵活性和可复用性。我们可以使用跨数据集训练的 D 实现在推理阶段实现更有效的 NIS。相较于交互性知识，具体的 HOI 知识要难以迁移一些。

4. 实验结果及对比情况

我们在 HICO-DET 数据集上（Known Object 模式）将本文提出的方法与 5 种目前最先进的方法进行了对比，在 V-COCO 数据集上将其与 4 种最先进的方法进行了对比。实验结果使用 mAP 指标进行评估。在采用相似的模型设计、目标检测方法、主干网络的情况下，RCD 通过使用联合训练和 NIS，在 HICO-DET、V-COCO、PaStaNet-HOI 三个数据集上都获得了超出目前最佳方法的性能。当我们将 NIS 应用于 iCAN 模型后，可以在 HICO-DET、V-COCO 数据集上都获得较为显著的 mAP 提升。具体实验结果如表 2、3、4 所示。

表 2：HICO-DET 数据集上的实验结果对比

表 3：V-COCO 数据集上的实验结果对比

表 4：PaStaNet-HOI 数据集上的实验结果对比

交互性网络对于「人 - 物」对是否存在交互关系的检测性能如表 5 所示：

表 5：交互性检测结果

为了进一步研究性能提升和网络 D 的训练样本规模大小之间的关系，我们分析了通过采用 NIS 技术减少非交互对的情况‍‍‍‍‍‍（如表‍‍‍‍‍‍ 6 所示）。值得一提的是，由于 HICO-DET 中存在 80 类被 NIS 判别为「无交互关系」，但是确实在 HICO-DET 数据集中为正例的 HOI，我们不会删除属于这些类别的「人 - 物」对。

表 6：NIS 对非交互对的减少情况

5. 可视化结果

图 8 显示了一些具有代表性的预测的可视化结果，本文提出的模型可以检测各种复杂的 HOI（例如，同一个人物对上的多种交互、一人对多物的交互、一物对多人的交互、多物对多人的交互）。

图 8：HOI 检测的可视化结果示例。蓝色边界框为人，红色边界框为物，交互关系用绿色线段连接起来。

NIS 作用的可视化结果如图 9 所示。可以看到 NIS 有效地识别出非交互对，并在很困难的场景下抑制了它们。

图 9：NIS 作用的可视化结果。绿色线段代表正确的 HOI，紫色线段代表需要抑制的非交互对。

交互性注意力的热力图如图 10 所示。交互性概率较高的像素点被表示为更亮的红色。我们发现，部位级交互知识可以有效地定位最富有信息量的部位。

图 10：交互性注意力热力图。

实验结果表明，模型不仅能够定位 HOI 示例中最可能发生交互的人体部位，还可以学到不同人体部位的功能，而不仅仅是突出物理上与物体接近的身体部位。不同部位与交互类型的关系如表 7 所示。

表 7：在 HICO-DET 数据集上应用数学公式: $ RCD_3 $ 模型得到的身体部位交互性注意力。

6. 消融实验

针对 RCD 模型，我们分析了 LIS 和 NIS 在推理过程中的重要性。此外，我们还分析了交互网络的设计和 HOI 知识的迁移性。

表 8：消融实验结果

五、结语

在本文中，我们针对 HOI 任务提出了一种新的方法学习并利用隐式的通用交互知识，它可以在数据集之间迁移。我们提出了一种层次化的交互性范式同时利用实力级和部位级的交互性。此外，我们采用了一种一致性学习任务提升学习效果。在得到了交互知识后，我们在推理过程中使用交互网络执行非交互抑制。大量的实验结果证明了我们学到的交互知识的有效性。

用于「人-物交互检测」的可迁移交互知识

相关推荐