CAGANn：用联合注意力GAN生成文本到图像 / 开普饭

重磅干货，第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

根据自然语言描述生成图像是一项具有挑战性的任务。在这项工作中，作者提出了联合注意生成对抗网络(CAGAN)，以生成照片逼真的图像根据文本描述。该模型采用了两种注意模式:词语注意以相关词语为条件绘制不同的子区域;并通过挤压和激励的方式来捕捉通道间的非线性交互作用。通过光谱归一化来稳定训练，作者提出的CAGAN改进了CUB数据集上的IS和FID以及更具挑战性的COCO数据集上的FID的现状。此外，作者还展示了通过单一的评估指标来判断模型可能会产生误导，通过开发一个附加的模型来添加局部自我注意，该模型的IS得分更高，优于CUB数据集的现有水平，但通过特征重复产生不现实的图像。

论文创新点

本文的主要贡献有三方面:

(1)作者整合了多个注意模型，从而对文本输入的细微差异做出精细的词语注意反应;基于局部自我注意的长期依赖模型;并通过挤压-激励注意力捕获通道间的非线性交互作用。

(2)作者用谱归一化来稳定训练，通过限定Lipschitz范数并将谱范数设置为指定值来限制鉴别器选择的函数空间。

(3)作者通过展示评估指标可能会有相反的反应来证明必须仔细查看单个评估指标上的改进。

框架结构

提出了CAGAN L+SE的架构，带有字、SE和局部关注。在CAGAN SE中，从F中去除局部自注意，将F降为正则词注意，并在上采样块中替换为SE注意。

实验结果

通过作者的模型、最先进的模型和真实的图像生成的CUB数据集的图像比较。

结论

在本文中，作者提出了联合注意生成对抗网络(CAGAN)，以生成照片逼真的图像根据文本描述。作者利用注意模型，如词语注意，以相关词语为条件绘制不同的子区域;关注通道间的非线性交互作用;以及对长期依赖模型的局部自我关注。通过光谱归一化来稳定训练，作者提出的CAGAN改进了CUB数据集上的IS和FID以及更具挑战性的COCO数据集上的FID的现状。此外，作者还证明了通过单一的评估指标来判断模型可能会产生误导，因为作者开发了一个额外的模型，该模型的IS得分更高，优于CUB数据集的最新水平，但通过特征重复产生不现实的图像。

论文链接：https://arxiv.org/pdf/2104.12663.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

CAGANn：用联合注意力GAN生成文本到图像

相关推荐