宏观控制图像字幕的文本生成

重磅干货,第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

尽管图像字幕模型已经能够对给定的图像产生令人印象深刻的描述,但挑战仍然存在:(1)现有模型的可控性和多样性仍然远远不能令人满意;(2)模型有时会产生极差的字幕。本文分别介绍了两种解决问题的新方法。针对上述问题,作者引入了一种控制信号来控制句子的宏观属性,如句子质量、句子长度、句子时态和名词数量等。通过这样的控制信号,增强了现有字幕模型的可控性和多样性。针对后一种问题,作者创新性地提出了一种策略,即通过训练图像-文本匹配模型来衡量前后两种方向生成的句子的质量,并最终选择更好的句子。因此,该策略可以有效减少劣质句子的比例。作者提出的方法可以很容易地应用于大多数图像字幕模型,以提高其整体性能。基于Up-Down模型的实验结果表明,作者的方法在交叉熵训练的MSCOCO Karpathy检验分裂上取得了37.5/120.3/21.5的BLEU4/ apple /SPICE分数,超过了目前采用交叉熵损失训练的方法的结果。

论文创新点

(1)引入控制信号。通过它,可以从外部控制句子质量、句子长度、句子时态、句子中名词数量等宏观句子属性,从而增强了现有字幕模式的可控性和多样性。

(2)创新地训练了一种图像-文本匹配模型,对前后方向生成的句子质量进行判断,并选择较好的句子,可以有效地减少劣质句子的比例,提高整体字幕性能。

(3)结合两种方法,在交叉熵训练方面实现了MSCOCO数据集的最新性能。通过苹果酒优化,作者的方法与基线相比也有了很大的改进。此外,作者的方法是通用的,可以应用于大多数字幕模型。

框架结构

作者的模型由两个图像标题模型和一个图像-文本匹配模型组成。作者将先分别介绍这两个成分的具体结构,然后再详细说明如何将这两个成分结合起来,产生更可控、更优质的句子。

本文以提出的经典的上下模型作为基础模型,因为它具有显著的性能。它由一个基于CNN的编码器和一个带有注意模块的基于LSTM的解码器组成。

为了得到对同一幅图像的不同描述,作者首先分别训练两个图像标题模型:正向LSTM Lfand反向LSTM Lb,分别生成正序和倒序的句子。在CIDEr上用交叉熵损失和自临界优化对它们进行良好训练后,作者再用基于铰链的三重组损失训练一个图像-文本匹配模型扫描。使用扫描模型来选择Lfand Lb生成的句子之间对图像更符合的更好的扫描模型。

实验结果

不同控制信号的可控性样本结果

为了充分展现每个控制信号的作用,作者分别用不同的控制信号训练三个模型,分别控制句子的长度、句子的时态和句子中的名词数。结果表明,对于给定的图像,作者的方法可以根据需要生成各种描述。

结论

本文在字幕模型中引入了两种新的方法。作者提出了一个控制信号来增强现有字幕模型的可控性和多样性。通过控制信号,作者可以控制句子的宏观属性,如句子质量、句子长度、句子时态、句子中名词的数量等,使作者可以根据需要生成不同的句子。作者还创新地训练了一个图像-文本匹配模型来判断前后方向生成的句子的质量。该方法减少了低质量句子的比例,同时提高了整体字幕性能。在交叉熵训练方面,作者通过上下+控制+扫描实现了新的最先进的性能。在上面的MSCOCO数据集上进行的实验证明了作者方法的通用性。它们可以很容易地应用于大多数字幕模型和其他序列生成任务,如机器翻译。

论文链接:https://arxiv.org/pdf/2101.08000.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

- END -

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。深度学习爱好者 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

深度学习爱好者 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

📝 来稿标准:

· 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

· 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

· 深度学习爱好者 默认每篇文章都是首发,均会添加“原创”标志

(0)

相关推荐