具有跨层次关注的实例感知遥感图像字幕
重磅干货,第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
空间关注是一种提高遥感图像字幕性能的直接方法。然而,传统的空间注意方法只考虑一个固定的粗网格上的注意分布,导致在视觉特征提取过程中容易忽略或干扰微小目标的语义。更糟糕的是,传统空间注意力的固定语义层次限制了不同层次和不同视角的图像理解,这对于解决遥感图像的巨大多样性至关重要。为了解决这些问题,作者提出了一种具有实例感知和跨层次关注的遥感图像标题生成器。1)实例感知是通过引入包含多级实例可能区域及其周围环境的视觉信息的多级特征体系结构来实现的。2)在多级特征提取的基础上,提出了一种跨层次注意机制,提示解码器在每个时间步中动态关注不同的语义层次和实例。在公共数据集上的实验结果表明,该方法优于现有方法。
本文主要贡献如下:
1)首次在遥感图像字幕中实现实例感知。它是一种更直接的方法来区分语义信息与地物及其关系。提取的对象特征与相邻斑块特征、全局特征共同构成多实例级特征,提高了空间层次和语义层次上特征关注的准确性和可能性。
2)提出了一种跨层次的关注机制,以适应多层次的特征输入,促使解码器动态关注不同的语义层次和不同的实例。这增强了面对极端遥感场景时在语义和规模上的灵活性。
框架结构
提出的方法的总体架构。该模型以遥感图像的多实例级特征提取为编码,输出具有跨层次注意机制的描述性句子。
实验结果
UCM、Sydney和RSICD数据集评价结果。粗体表示上面的
所提方法的算例结果。
结论
本文提出了一种具有实例感知和跨层次关注的遥感图像字幕方法。在这项工作中,利用Faster RCNN准确定位关键目标及其周围环境。这样编码器就可以准确地提取关键元素区域,而不是基于均匀的空间网格估计内容。为了处理单一纹理的场景,如沙漠和海洋,一个全球视觉特征也被引入。为了适应这种多实例级的特征形式,提出了一种跨层次的注意机制,促使解码器动态地关注不同语义层次和不同实例的视觉特征。在主流数据集上的实验结果表明了该方法的有效性。
论文链接:https://arxiv.org/pdf/2105.04996.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。