【SIGIR 2021 最佳学生论文】图像文本检索的动态模态交互建模
论文链接:https://dl.acm.org/doi/abs/10.1145/3404835.3462829
项目链接:未开源
图像-文本检索是信息检索中的一个基本的分支。虽然目前在联系视觉和语言的方面已经取得了很大的进展,但由于模态内推理(intra-modal reasoning ) 和跨模态对齐(cross-modal alignment) 的难题,图像-文本检索仍然具有挑战性。现有的模态交互方法在公共数据集上取得了不错的结果。然而,这些方法严重依赖于手工设计的交互模式设计,因此缺乏灵活性。
为了解决这些问题,作者提出了一种基于路由机制的新型模态交互建模网络 ,实现统一的、动态的图像文本检索多模态交互框架。作者首先设计四种类型的单元作为基本单元来探索不同层次的模态交互,然后以密集的策略将它们连接起来,以构建一个路由空间。
为了赋予模型路径决策的能力,作者在每个单元中集成了一个动态路由器( dynamic router)来进行模态路径的动态探索 。由于路由器以输入为条件,因此模型可以动态地学习不同数据来激活不同的路径。作者在两个基准数据集,即Flickr30K和MS-COCO上进行了实验,本文的模型达到了SOTA的性能。
01
它们的模态交互模式是手工设计的,这在很大程度上依赖于专家知识和经验反馈,这可能会使一些最佳的交互模式难以被发现。 现有的模型是静态的,即所有的样本都经过相同的固定计算流。这可能会导致即使是简单的图像-文本对也会被一些非常复杂的交互模式处理。
02
2.1 Feature Representation
2.1.1 Visual Representation
2.1.2 Textual Representation
2.2.1 Rectified Identity Cell
2.3.1 Routing Space
2.3.2 Routing Process
2.4.1 Alignment Objective
2.4.2 Path Regularization
03
3.1 Performance Comparison
3.2 Module Analysis
3.2.1 Modality Interaction Cells
3.2.2 The Router
3.2.3 Path Regularization
3.2.4 Parameter Analysis
3.3 Path Visualization
3.4 Qualitative Results
04
作者介绍
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。
知乎/公众号:FightingCV
赞 (0)