【知识星球】视频分类/行为识别网络和数据集上新

欢迎大家来到《知识星球》专栏,这两天有三AI知识星球专注更新3D卷积和视频分类/行为识别相关的网络以及相关数据集的介绍和下载。

作者&编辑 | 言有三

有三AI知识星球-网络结构1000变

Two-stream(Spatial+Temporal)

Two-stream是一个非常经典的网络,可以被用于分类,检索,跟踪等任务,这里的Two-stream网络包含了时间和空间网络,分别用于提取RGB的空间信息和光流时间信息。

作者/编辑 言有三

网络结构如上,包含两个通道,第一个通道为spatial stream convNet通道,输入单帧RGB图,用于提取空间信息,是一个2D网络。

第二个通道为temporal stream convnet,输入若干帧光流图,用于提取时间信息,是一个3D网络。光流包括x和y两个方向,所以对于大小为 w, h, 帧长为L的视频片段,temporal stream convnet的输入形状为:( w,h,2L ),下图展示了相邻两幅图的光流图:

两个网络的具体细节在上图已经有所展示,不再详述,下面看下具体的表现:

上表分别是只使用空间网络和只使用时间网络的结果,结果表明空间网络过拟合很严重,时间网络性能远超空间网络,说明运动信息更加重要。另外从5~10增加帧数有微小性能提升,所以最终使用的帧数是10。

下面再来看Two-stream网络,结果融合方法是两个网络的softmax输出的平均或者多类别linear SVM。

结果可以看出,相对于单个网络,有较大的性能提升,其中多类别linear SVM的融合方法比直接平均法更好。

参考资料:

[1] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in neural information processing systems. 2014: 568-576.

有三AI知识星球-数据集

UCF101

UCF101是一个视频分类/行为识别数据集,共101个类别,13320个短视频。

作者/编辑 言有三

数据集地址:

https://www.crcv.ucf.edu/research/data-sets/human-actions/ucf101/,发布于2012年。

该数据集包括13320个短视频,来源于YouTube,共101个类别。其中每一类由25个人做动作,每个人做4-7组,视频大小为320×240。

UCF101是目前动作类别数、样本数最多的数据集之一,主要包括在自然环境下101种人类动作类别如跳、拍手、打羽毛球等等,也正因为类别众多加上UCF101在动作的采集上具有非常大的多样性,如相机运行、外观变化、姿态变化、物体比例变化、背景变化等等,所以也成为了当前难度最高的动作类数据集之一。

各个类别的数量分布如上,可知道还是比较均匀的,UCF101在视频分类/行为识别中是必须评测的基准,有如图像中的ImageNet。

更多相关的模型解读

加入有三AI知识星球即可获取

每日更新

已经超过3万字的内容

覆盖各类主流网络架构

转载文章请后台联系

侵权必究

(0)

相关推荐