ICML2021 | ALIGN:大力出奇迹,谷歌用18亿的图像-文本对训练了一个这样的模型
论文链接:https://arxiv.org/abs/2102.05918
项目链接:尚未开源
01
02
2.1. A Large-Scale Noisy Image-Text Dataset
2.2. 预训练与任务迁移
2.2.1. 预训练
2.2.2. 任务迁移之Image-Text Matching & Retrieval
2.2.3. 任务迁移之 Visual Classification
03
3.1. Image-Text Matching & Retrieval
3.2. Zero-shot Visual Classification
3.3. Visual Classification w/ Image Encoder Only
3.4. Ablation Study
3.4.1. Model Architectures
3.4.2. Pre-training Datasets
3.5. Analysis of Learned Embeddings
3.6. Multilingual ALIGN Model
04
作者介绍
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。
知乎/公众号:FightingCV
END
赞 (0)