CVPR2021 Oral《Seeing Out of the Box》北科大&中山大学&微软提出端到端视觉语言表征预训练方法
论文链接:https://openaccess.thecvf.com/content/CVPR2021/html/Huang_Seeing_Out_of_the_Box_End-to-End_Pre-Training_for_Vision-Language_Representation_CVPR_2021_paper.html
项目链接:https://github.com/researchmm/soho
01
首先,region特征关注的是框内的对象,而忽略了框外的上下文信息 ,这些上下文信息对于理解和推理关系非常重要的。(如下图所示,我们可以很容易地在图像中发现“男人”、“女人”和“船”。然而,如果没有这些框外的上下文信息,模型将误解这种关系为“人划船”,导致模型在文本检索或VQA任务中给出错误的答案。)
第二,对图像的视觉信息理解将会被局限在目标检测器预定义的区域类别 。
第三,大部分region特征是通过检测模型提取的,存在质量低、噪声大、过采样 等问题,依赖于大规模的box标注数据 。
02
方法
2.1. Trainable Visual Encoder
2.2. Visual Dictionary
Visual Dictionary Embedding
Momentum Learning for Visual Dictionary Update
Gradient Back Propagation
2.3. Pre-training Pipeline
Masked Language Modeling
Masked Visual Modeling
Image-Text Matching
2.4. Pre-training Datasets
03
实验
3.1. 下游任务和结果
3.1.1. Task I: Image-Text Retrieval
3.1.2. Task II: Visual Question Answering
3.1.3. Task III: Visual Reasoning
3.1.4. Task IV: Visual Entailment
3.2. Ablation Study
3.3. Visualization of Visual Dictionary
04
备注:CV
计算机视觉交流群
视觉表征、目标检测、人体姿态估计、手势识别等更多新鲜资讯,若已为CV君其他账号好友请直接私信。
在看,让更多人看到
赞 (0)