ICCV 2019 | 北邮提出高阶注意力模型,大幅改进行人重识别SOTA精度
这种新出的注意力模型,很显然也可以适用于其他视觉问题建模,作者已于近日开源了代码,非常值得参考。
论文作者信息:
作者均来自北京邮电大学。
什么是注意力模型?
在视觉问题建模中,注意力模型是让算法能对那些对最终结果产生更大影响的图像或特征图的局部进行建模,让模型学习一个01掩膜,与1对应的图像或特征块,就是注意力区域,也就是在视觉问题中,模型应该重点关注的区域。
这在很多实际问题中,是非常有意义的。
比如前几天我们分享了一篇有关GAN的论文:登顶Github趋势榜,非监督GAN算法U-GAT-IT大幅改进图像转换效果,作者引入注意力模型使得生成和鉴别模型能对最终结果产生更大影响的区域“更加关注”,显著改进了图像转换的效果。
而CVPR 2019 图像压缩比赛的冠军方案图鸭科技包揽 CVPR 2019 图像压缩大赛四项指标全部冠军!,同样在图像压缩中引入注意力机制,也取得了更好的效果。
作者认为通常的注意力模型往往只关注图像或者特征图内部注意力区域或通道,不能很好建模不同区域对最终结果共同作用产生的结果。作者称这样的注意力模型为一阶注意力机制。
作者提出高阶注意力机制,希望模型对图像或特征图不同部分共同作用机制进行注意力建模。
想像一下,这其实是很有道理的。比如在行人重识别中,人体各个部分当然对最终结果的影响不同,所以可以引入注意力机制建模,但各个部分之间对最终结果也会有协同影响。
下图展示了,作者提出的高阶注意力机制与空间注意力机制Spatial Attention、通道级注意力机制Channel Attntion的比较。
高阶注意力机制,主要是为了建模注意力模块之间的相互影响。
高阶注意力建模
下图展示了在CNN网络中作者提出的一阶和三阶注意力建模的过程:
R代表阶数,
代表张量的Hadamard Product。
将高阶注意力模块嵌入行人重识别算法流程中:
R=1,R=2,R=3,代表图中嵌入了1、2、3阶注意力模型。作者称这种结构为混合高阶注意力网络Mixed High-Order Attention Network(MHN)。
值得注意的是,这种网络结构是与模型解偶的,所以该模块可与任何行人重识别网络结合。
实验结果
作者在行人重识别多个主流数据集上进行了实验。
下图展示了,在Market-1501数据集上,PCB算法上加上MHN建模,在各种评价指标下均取得了一致性的精度提高。相比以往的SOTA算法,也取得了最好的结果。
下图展示了在DukeMTMC-ReID数据集上同样获得了显著精度提升,且大幅领先第二名!
在CUHK03-NP数据集上依然有大幅提高!显著领先之前的SOTA!
作者研究了注意力阶数对最终结果的影响,,由下表可知,阶数越高,最终的结果越好。
去与他注意力机制夹持的ReID算法相比较的结果:
可见,该文提出的高阶注意力模型是在ReID问题中更好的注意力建模方法。
值得注意的是,注意力机制在视觉任务中被广泛使用,该文提出的方法对其他任务是否也有比价好的改进效果?非常期待有更多的结果出来。
最后,感谢作者的开源~
论文地址:
https://arxiv.org/abs/1908.05819
代码链接:
https://github.com/chenbinghui1/MHN