ACMMM 2021《LSG》性能SOTA!用GNN和GAN的方式来强化Video Captioning的学习!
论文链接:https://arxiv.org/abs/2108.03662
项目链接:https://github.com/baiyang4/D-LSG-Video-Caption(尚未开源)
01
检测和识别视频中的主要对象,即“woman”和“stroller”; 推断给这些对象之间的交互和动作,即“showing”和“operates”; 将内容组织成一个具有语法结构的句子,即“A woman is showing how stroller operates”。
首先,在增强对象建议任务中,从视频帧中提取时空上下文,并将这些信息合并到视觉对象中。 第二,因为,视频中的帧和对象建议的数量远远多于生成句子中的单词。因此,视觉知识任务的目的是将这种重复和冗余的建议转换为更紧凑的视觉单词(visual word)。相比于增强对象建议任务中提出的建议,这一步产生是视觉单词更有益于生成句子。 最后,句子验证任务旨在检查生成的标题的真实性和可读性。
基于多种特征融合的图模型 (Graph model)。这些特征在数据分布、维度和结构上通常是异构的。2D CNN表示帧内容,3D CNN提取时间帧变化,region-level object proposals考虑了每一帧里面的视觉对象信息。 潜在语义 (Latent Semantic)是指可以从增强的对象建议中提取的高级语义知识。通过动态图将大量的增强对象建议转换为少量的高级视觉知识。 鉴别模块 (Discriminative module)用于生成语言的验证。
02
2.1 Architecture Design
Multiple Feature Extraction
Enhanced Object Proposal
Visual Knowledge
Language Decoder
2.2 Latent Semantic Graph
Conditional Graph Operation
Latent Proposal Aggregation
2.3 Discriminative Language Validation
03
3.1 Quantitative Evaluation
Comparision with object-based models
Comparision with GNN-based models
3.2 Ablation Study
Effect of latent proposal number
Effect of discriminative modeling based on Graph
3.3 Qualitative Evaluation
04
作者介绍
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。
知乎/公众号:FightingCV
END,入群👇备注:视频字幕
赞 (0)