复旦提出GaitSet算法,步态识别的重大突破!
这两天专注介绍计算机视觉黑科技的52CV君发现一篇被AAAI2019录用的非常棒的复旦大学的文章!性能强悍到爆!
而且,论文作者经把代码也开源了!(文末附下载)
文章的题目是《GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition 》,下面是作者信息:
该文研究的问题是步态识别,提出的新算法GaitSet精度大幅超越目前的state-of-the-art,可谓步态识别领域的重大突破!
一、什么是步态识别?
步态是指人们行走时的方式,这是一种复杂的行为特征。尤其在刑事侦查中,具有反侦察意识的罪犯或许会给自己化装,不让自己身上的哪怕一根毛发掉在作案现场,但有样东西他们是很难控制的,这就是走路的姿势。
步态识别是一种新兴的生物特征识别技术,旨在通过人们走路的姿态进行身份识别,与其他的生物识别技术相比,步态识别具有非接触远距离和不容易伪装的优点。在智能视频监控领域,其更具优势。
步态识别时将视频预处理行人与背景分离,形成黑白轮廓图silhouette。下图展示了在该领域研究中被广泛应用的数据库CASIA-B的部分silhouette图像样例,所谓silhouette即去除背景的行人黑色轮廓图。
二、一般的步态识别方法
文中指出,在以往文献中,步态识别主要有两大类方法:
2.1 将步态看作图像
将所有的步态轮廓图压缩成一幅图像,将步态识别看成一个图像匹配问题。很显然这种方法忽略了步态中的时序信息,也无法建模精细的空域信息。
2.2 将步态看作视频序列
考虑直接从silhouette提取特征,使用LSTM方法或者3D-CNN方法,可以很好的建模步态中的时、空域信息,但其计算代价高昂也不易于训练
三、该文提出的GaitSet算法
该文的主要思想来自于人类对步态的视觉感知上,作者发现,步态中的silhouette从视觉上看前后关系很容易辨认。
所以受此启发,作者不再刻意建模步态silhouette的时序关系,而将步态silhouette当作没有时序关系的图像集,让深度神经网络自身优化去提取并利用这种关系。
作者通过三个步骤提取步态序列的特征,分别记为下图公式中F、G、H。
F 为提取单幅步态轮廓图像的CNN特征;
G 为将各幅图像的CNN特征聚合成一个特征向量;
H 为考虑提取多尺度特征,并通过全连接网络提高特征的鉴别性。
作者提出的算法框架流程图如下:(请点击图片查看大图)
3.1 提取多幅图像CNN特征
由以上算法框架流程图可知,将步态序列的黑白轮廓图每幅图像分别输入CNN网络提取特征。
此时图像集的图像个数可为不同,每幅图像单独处理。
3.2 多特征集合池化(Set Pooling)
该部分作用即将多幅图像通过CNN网络提取的特征聚合为一个特征向量。
该部分体现在以上算法框架流程图中SP部分。
作者使用的方法是集合了多种池化方法,其主要算法流程如下。该结构可集成到网络中实现端到端训练。
3.3 使用Horizontal Pyramid Pooling汇集多尺度鉴别特征
为使得特征提取兼具局部和全局性,作者引入Horizontal Pyramid Pooling (HPP)提取4个尺度的特征,为使得特征更具鉴别性,作者在网络最后使用全连接层优化特征整体鉴别性。
3.4 利用多层执行全流程管线Multilayer Global Pipeline
CNN网络中越浅层网络提取的特征感受野越小,越深层的网络感受野越大。
作者将多个“浅”和“深”网络层提取的特征均输入后续集合特征聚合流程中。
四、实验结果
该文在CASIA-B和OU-MVLP两数据库上进行了实验。
数据集和实验设置不再赘述,欲细读此文的朋友可于文末自行下载查看。
只能说,结果异常彪悍,从数值上看与目前的state-of-the-art算法相比,简直不属于同一个时代!所有结果全部大幅超越!
CASIA-B数据库上的实验结果
OU-MVLP数据库上实验结果
作者做了一个实验,在CASIA-B数据集上随着给定图像帧数增加测试算法精度的变化。
甚至在仅有7帧黑白轮廓图的情况下,GaitSet算法的精度即可达到82%。
这是什么概念呢?以25帧为监控视频常设帧率计算,仅需要0.28秒的行人视频即能达到一个较好的步态识别精度了!
五、结论
该文提供了一个新的思路,即作者将步态识别视频序列看为图像集,据此设计了GaitSet算法,实验验证该算法精度提升异常明显,在该领域研究中可谓之重大突破!
前段时间,52CV曾经报道了DeepMind与VGG组的基于图像集的人脸识别算法:DeepMind&VGG提出基于集合的人脸识别算法GhostVLAD,精度远超IJB-B数据集state-of-the-art 性能提升同样惊人,看来基于图像集提取特征再进行特征聚合的方法的确值得大家关注!
该文思路即忽略视频序列时序关系而看为图像集,在视频分析的其他任务比如行人重识别中是否也能大展拳脚,让我们拭目以待~
论文代码下载
https://github.com/AbnerHqC/GaitSet