【SIGIR 2021 最佳学生论文】图像文本检索的动态模态交互建模

〖〗
本文分享一篇 SIGIR 2021 最佳学生论文『Dynamic Modality Interaction Modeling for Image-Text Retrieval』,图像文本检索的动态模态交互建模。
详细信息如下:
  • 论文链接:https://dl.acm.org/doi/abs/10.1145/3404835.3462829

  • 项目链接:未开源

导言:

图像-文本检索是信息检索中的一个基本的分支。虽然目前在联系视觉和语言的方面已经取得了很大的进展,但由于模态内推理(intra-modal reasoning ) 和跨模态对齐(cross-modal alignment) 的难题,图像-文本检索仍然具有挑战性。现有的模态交互方法在公共数据集上取得了不错的结果。然而,这些方法严重依赖于手工设计的交互模式设计,因此缺乏灵活性。

为了解决这些问题,作者提出了一种基于路由机制的新型模态交互建模网络 ,实现统一的、动态的图像文本检索多模态交互框架。作者首先设计四种类型的单元作为基本单元来探索不同层次的模态交互,然后以密集的策略将它们连接起来,以构建一个路由空间。

为了赋予模型路径决策的能力,作者在每个单元中集成了一个动态路由器( dynamic router)来进行模态路径的动态探索 。由于路由器以输入为条件,因此模型可以动态地学习不同数据来激活不同的路径。作者在两个基准数据集,即Flickr30K和MS-COCO上进行了实验,本文的模型达到了SOTA的性能。

      01      

Motivation
图像文本检索是信息检索中的一个基本的问题,能够促进各种应用的落地,比如:跨模态检索、多媒体推荐。然而,由于需要模态内关系的精确推理跨模态信息的精确对齐 ,图像文本检索仍然是一项具有挑战性的任务。
具体来说,如上图所示,模态内关系的精确推理需要识别和理解视觉或文本模态中的各种关系,如文本模态中“a red sled is next to him”的中间关系和视觉模态的虚线圈中的视觉关系。跨模态信息的精确对齐将来自不同模态的对象连接起来,以便在不同的语义级别上相互匹配,例如上图,标注相同颜色标注的视觉区域和文本概念,标注相同数字的高级关系应该很好地对齐。
根据所使用的交互模式,大致可以分为三类:
1)模态内相互作用。对于模态内推理的挑战,这种模式只是为不同模态独立进行交互建模,以探索特定模式内是的实体之间的关系,
2)跨模态交互。这类交互的研究集中在跨模态实体的对齐。比如对齐文本模态的“kid”和视觉模态的“kid”区域。
3)混合模态交互。为了进一步解决上述两个挑战,最近一些工作提出了结合模态内和模态间交互的方法。
但上述三类交互方式仍存在两个关键缺点:
  1. 它们的模态交互模式是手工设计的,这在很大程度上依赖于专家知识和经验反馈,这可能会使一些最佳的交互模式难以被发现。
  2. 现有的模型是静态的,即所有的样本都经过相同的固定计算流。这可能会导致即使是简单的图像-文本对也会被一些非常复杂的交互模式处理。
为了解决这些缺点,作者提出了一种新的动态模态建模网络(DIME),这是第一个动态模态交互的图像-文本检索框架。作者首先设计了四种类型的单元来完成不同的交互操作。具体来说,rectified identity cell 提供了相同的非线性转换能力,而 intra-modal reasoning cell 用来捕获上下文信息和模态内关系。
为了增强视觉-文本对齐,作者设计了具有不同粒度的 global-local guidance cellcross-modal refinement 。然后,作者将这些单元在网络宽度和深度上叠加,以构建一个完整的路径空间,从而可以考虑各种未被探索的交互模式。同时,作者为每个单元配置了一个动态路由器 ,以生成与数据相关的路径。此外,为了使相似的图像/文本来学习相似的路径,作者引入了语义一致性正则化 。

      02      

方法

2.1 Feature Representation

2.1.1 Visual Representation

给定一个图像𝐼,首先用 bottom-up attention模型提取区域特征,然后根据置信度分数选择前R个ROIs。然后将这些特征average pool,得到特征。然后,通过FC将这些特征向量转换为𝐷维空间。输出的视觉区域表示法表示为;。同时,作者采用平均池化方法得到了给定图像𝐼的全局表示。

2.1.2 Textual Representation

对于一个给定的句子𝑇,先使用预训练的BERT作为文本编码器来提取单词embedding;。然后,采用一个些不同大小感受野的并联的一维卷积来捕获短语级语义。然后,将这些卷积核的特征映射concat起来,将结果传到FC层,获得𝐷维的单词特征,表示为;。
2.2 Modality Interaction Cells
模型结构如上图所示。
为了解决模态内推理和跨模态对齐的挑战,作者设计了4种类型的单元,包括用于模态内推理的模态内推理单元(Intra-Modal Reasoning Cell,IMRC),用于跨模态推理的全局局部引导单元(Global-Local Guidance Cell,GLGC)和跨模态细化单元(Cross-Modal Refinement Cell,CMRC),以及用于识别线索保留的重构直连单元(Rectified Identity Cell,RIC)。这些单元能够起到不同层次的模态交互作用,赋予模型具有优秀的语义表示和推理能力。表示如下:
由于跨模态检索的双向性质,分别使用和分别表示query的局部和全局特征;同样,gallery的本地和全局特征分别用
和表示。

2.2.1 Rectified Identity Cell

作者认为,对于简单的图像或句子,复杂的交互操作可能没必要的。因此,作者设计了一个简单的交互单元,可以跳过不必要的操作,并保留有区别性的线索。此外,为了缓解梯度消失的问题,作者提出了Rectified Identity Cell,如上图所示,表示为:
2.2.2 Intra-Modal Reasoning Cell
为了捕获局部片段(即单词或视觉区域)之间的语义依赖性,作者设计了一个模态内推理单元(Intra-Modal Reasoning Cell)。作者采用多头自注意机制来捕获来自不同子空间的模态内依赖关系:
然后再用FFN进行通道的交互,总体的操作如上图所示,表示如下:
2.2.3 Global-Local Guidance Cell
虽然局部表示可以编码丰富的线索,但全局特征浓缩了上下文信息和高级语义。因此作者采用一种模态的全局信息作为指导来调节另一种模态的局部信息:
2.2.4 Cross-Modal Refinement Cell
为了进一步减少语义差距和丰富特征表示,作者通过局部-局部跨模态交互来细化片段特征。首先计算不同模态的片段之间的attention权重如下:
然后加权求和,得到attention之后的结果:
基于跨模态上下文信息,作者提出了一种条件调制策略来精炼特征,可以对局部特征进行语义增强。首先映射上下文向量,生成缩放向量和移位向量,如下所示:
然后,通过仿射变换、𝑀𝐿𝑃和残差连接计算精炼的局部特征:
2.3 Soft Router

2.3.1 Routing Space

为了充分发挥四个单元各自的优势,它们在每一层中并行配置。此外,作者还以密集的方式将它们连接到相邻的层之间。基于此,每个单元都有机会接收来自属于上一层的单元的所有信号。更重要的是,这种密集的连接方案确保了路由空间的丰度和灵活性。

2.3.2 Routing Process

在构建了密集连接的路由空间后,作者提出了soft router进行路由过程,这可以看作是一个路径决策的过程。对于第l层,计算如下:
其中g代表了当前层和当前单元的路径权重,也是根据输入得到的,具体计算如下:
2.4 Objective Function

2.4.1 Alignment Objective

为了实现给定的正图像-文本对(𝐼,𝑇)的语义对齐,作者使用双向 triplet loss进行优化,其定义为:
表示一个 margin factor,(,,,)表示𝐼和𝑇的全局表示之间的余弦相似性。

2.4.2 Path Regularization

此外,具有相似语义的样本应该学习类似的路由路径。换句话说,路由分布应该与语义分布相一致。为此,作者通过考虑样本之间的语义相似性,引入了一个路径正则化项。
考虑到原始的BERT embedding包含了丰富的语义信息,作者利用BERT embedding来指导路由学习。具体的,给定一个实例𝑥,首先通过BERT提取单词embedding,然后采用平均池化得到的语义表示。然后,作者收集并连接来自所有路由器的gate value,得到路径vector 。为了实现语义-路径的一致性,将正则化表示为:
最后总的损失函数为:

      03      

实验

3.1 Performance Comparison

如上表所示,DIME相比于其他图像-文本检索的方法有明显的性能优势。

3.2 Module Analysis

3.2.1 Modality Interaction Cells

上表的结果说明了,本文提出的四个模块都有非常有效的作用

3.2.2 The Router

我们观察到,软路由在所有指标上始终一致地达到了最佳的性能。

3.2.3 Path Regularization

可以看出,路径正则化提高了性能。性能先得到提高后才达到饱和点(即),然后开始略有下降。

3.2.4 Parameter Analysis

从比较结果中,我们可以发现,在适当的范围内增加层数(即从1到3)可以通过提高模型的表示能力来提高检索性能。

3.3 Path Visualization

我们可以看到,根据学习到的路径,与人类相关的图像(黑色、蓝色和绿色点)和与动物相关的图像(红色和黄色点)可以很好地区分。
从上图可以看出,更复杂的输入需要更复杂的交互路径,这与对人类大脑的感知相一致。

3.4 Qualitative Results

为了定性地验证DIME的有效性,作者在上图中展示了几个关于I2T检索和T2I检索的典型例子。

      04      

总结
在本文中,作者提出了一个统一的图像-文本检索模式交互建模框架,首次通过动态路由学习来探索交互模式。具体来说,作者首先设计了四种类型的单元来执行不同的内部交互操作和动态路由器来进行路由学习。然后引入了路径决策的语义路径一致性正则化方法。作者在两个基准数据集上进行了实验,结果证明了该方法的有效性和优越性。

作者介绍

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

(0)

相关推荐