SFANet:一种用于可见光-红外人再识别的频谱感知特征增强网络
重磅干货,第一时间送达
小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
由于可见光和红外图像之间存在较大的模态变化,可见-红外人再识别(VI-ReID)是一个具有挑战性的匹配问题。现有的方法通常只用特征级的约束来弥补模式的差距,忽略像素级的变化。一些方法使用GAN生成风格一致的图像,但它破坏了结构信息,并引起相当程度的噪声。在本文中,作者明确地考虑了这些挑战,并制定了一个名为SFANet的新型频谱感知特征增强网络来解决跨模态匹配问题。具体来说,作者提出用灰度-光谱图像完全代替RGB图像进行特征学习。通过对灰度光谱图像的学习,作者的模型可以明显地减少模态差异,并检测不同模态之间的内部结构关系,使其对颜色变化具有鲁棒性。在特征层,作者通过平衡特定的和可共享的卷积块的数量来改进传统的双流网络,从而保留了特征的空间结构信息。此外,该网络还嵌入了一个双向三约束顶推排名损失(top-push ranking loss, BTTR)来提高识别能力,有效地进一步提高了匹配精度。同时,作者进一步引入了一种有效的双线性批归一化ID嵌入方法来建模特定的身份信息,并协助BTTR损失的幅度稳定。在SYSU-MM01和RegDB数据集上,作者进行了大量实验,以证明作者提出的框架是不可或缺的,并实现了非常有竞争力的VI-ReID性能。
其主要贡献可归纳为四方面:
作者提出了一种基于频谱感知的特征增强网络来实现可见光-红外人的再识别。据作者所知,这是首次尝试用灰度-光谱图像来完全取代传统的RGB图像进行跨模态特征学习。
作者开发了一种可共享的双路径信息保持网络,以共享两个浅卷积层的参数,用于特征嵌入。与[33]中VI-ReID的第一个参数共享工作相比,它取得了更加突出的性能。
作者提出了双向三约束顶推排名(BTTR)损失来约束同一模态和交叉模态下不同类的相对距离,进一步提高了网络的性能。
为了提高分类精度和稳定嵌入向量的大小,作者设计了一种新的分类器结构,命名为双线性批归一化ID嵌入,该结构与所提出的BTTR损失函数一起工作,性能有很大的提高。
所提出的SFANet的架构
首先利用信道转换操作生成跨谱灰度图像。在通道扩展后,来自灰度和红外模式的图像被输入到共享的双路径信息保持网络中进行特征学习。使用两个损耗函数,即跨模态共享身份损耗和双向三约束顶推排名损耗来监督训练过程。
比较广泛使用的分类器和作者提出的双线性批处理标准化分类器(DL-IDE)。作者使用最后一个全连接层的输出作为最终的分类结果。
作者生成的灰度图像与RGB和IR图像的比较。每行表示SYSU-MM01数据集的相同标识。可以看出,灰色柱的图像与红外相机捕捉到的图像相似。
在SYSU-MM01的测试集上对本文方法的前10名检索结果进行了采样。绿色边框的图像与黑色边框的查询属于相同的身份,红色则相反。
结论
在本文中,作者提出了一种用于可见光-红外人再识别的深度学习框架SFANet。SFANet是基于灰度-频谱特征增强策略形成的,能够保留RGB图像的完整语义信息,同时缓解图像空间中较大的模态差异。在常见的双流特征提取网络之外,作者进一步扩展了SFANet,采用参数共享结构来捕获具有鉴别性的三维人空间结构信息。此外,作者提出了一个带有批归一化的双线性ID嵌入方法和一个双向三张力顶推排名(BTTR)损失来发展特征级约束,允许处理分类器级的模态差异,并提供一个有效的度量措施来减少类之间的模糊度。在两个标准基准上的大量实验结果表明,所提出的框架具有足够的鲁棒性来学习模态不变特征表示,并优于最先进的方法。
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。深度学习爱好者 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
深度学习爱好者 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
· 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
· 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
· 深度学习爱好者 默认每篇文章都是首发,均会添加“原创”标志