SimVLM:拒绝各种花里胡哨!CMU&Google提出弱监督极简VLP模型,在多个多模态任务上性能SOTA
本文介绍论文『SimVLM: Simple Visual Language Model Pretraining with Weak Supervision』,由 CMU&Google 提出弱监督极简 VLP 模型,SimVLM,拒绝各种花里胡哨!在多个多模态任务上性能 SOTA。
论文链接:https://arxiv.org/abs/2108.10904
项目链接:尚未开源
01
首先,使用目标检测数据集来训练监督训练目标检测器(OD),允许从图像中进一步提取感兴趣区域(ROI)特征。 接下来,使用对齐的图像-文本对的数据集进行模型的MLM预训练,该模型通常以提取的ROI特征和成对文本的concat结果作为输入。 此外,由于标注数据的规模有限,为了提高性能,还引入了各种特定于任务的辅助损失。
可以无缝地插入到预训练-微调范式中,并在标准VL基准数据集上实现比较好的性能; 不像以前的方法那样需要一个复杂的预训练目标; 在跨模态设置中具有文本引导的zero-shot泛化的能力。
Objective ,它使用前缀语言建模(PrefixLM)的单一目标,进行端到端训练。它不仅可以像GPT-3那样自然地执行文本生成,而且还可以像BERT那样以双向的方式处理上下文信息。
Architecture ,它采用了ViT的结构,直接将原始图像作为输入。这样的模型也适合大规模的数据,并很容易与PrefixLM目标兼容。
Data ,这些设置减轻了目标检测的需求,并允许模型利用大规模的弱标记数据集,这对zero-shot泛化有更好的效果。
02
2.1背景
2.2 前缀语言建模
2.3结构
2.4数据集
03
3.1设置
3.1.1预训练
3.1.2微调
Visual question answering
Visual entailment
Visual reasoning
Image captioning
Multimodal translation
3.2与现有方法的比较
3.3 ZERO-SHOT泛化
3.3.1 ZERO-SHOT图像字幕
3.3.2 ZERO-SHOT Cross-Modality Transfer
3.3.3 ZERO-SHOT VQA
04
作者介绍
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。
知乎/公众号:FightingCV
END,入群👇备注:VL
赞 (0)