You Only Watch Once：实时人体动作定位网络

2024-06-23 11:47:35

今天跟大家介绍一篇YOLO风格浓郁的论文，来自慕尼黑工业大学的学者受人类视觉的启发，提出一种快速实时的视频动作定位方法You Only Watch Once（YOWO），达到了目前最好的效果，而且代码将开源。

下面为作者信息：

视频动作定位是在视频中定位出正在执行动作的主体并识别出动作的问题。

请看下面这幅动图：

很显然该问题包括：在多帧中定位主体和动作分类。

在对关键帧（当前帧）进行动作分类时，很显然要考虑之前的数据。

作者提出的算法正是在这一观察下，结合3D-CNN 提取时空信息和2D CNN 提取位置信息再特征融合，并参考YOLO检测方法提出来的。

不同于以往类似Faster R-CNN两阶段方法，先生成大量proposals，再进行分类和位置提精，YOWO在一个网络中实现了时空信息的提取和融合，易于训练，精度高，而且速度也很快。

算法架构

下图为YOWO从数据输入到输出的整个过程：

使用3D CNN对视频片段提取时空信息，使用2D CNN对关键帧提取空间信息，对得到的两部分特征进行注意力机制和通道融合（CFAM）的特征聚合，后面的过程与YOLO一样，卷积后进行分类和包围框回归。

作者提出的CFAM特征聚合方法：

开始处，红色和深蓝色代表前一阶段的两个分枝的特征拼合在一起。

实验结果

作者在UCF101-24 和 J-HMDB-21数据集上进行了实验，验证了算法各部分的有效性，并在与state-of-the-art算法的比较上，取得明显的精度改进。

上图展示了在两种度量标准下，作者提出的算法各部分都取得了精度增益。

在两个数据集上与SOTA算法的结果比较：

在Frame-mAP的度量标准下，YOWO达到了更高的精度，分别比之前的最好结果提高了3.3 和12.2 个百分点。

与其他算法相比，速度更是一大亮点：

在Titan xp GPU上，YOWO 可达到 62 fps！

以下是作者给出的一些结果：

这个问题还是蛮有意思的，把YOWO用在“打架识别”，应该很有前途^_^

论文地址：

https://arxiv.org/pdf/1911.06644.pdf

项目地址：

https://github.com/wei-tim/YOWO

（还未开源，但已经引起了很多人关注！）

动作定位识别交流群

赞 (0)

自动驾驶车辆的AI算法及其面临的挑战

自动驾驶车在农业.运输和军事等领域开始成为一种现实,普通消费者在日常生活中使用自动驾驶车的那一天也在迅速来临.自动驾驶车根据传感器信息和AI算法来执行必要的操作,它需要收集数据.规划轨迹并执行行驶路线 ...
综述：目标检测二十年（2001-2021）

作者丨派派星来源丨CVHub 编辑丨极市平台极市导读目标检测领域发展至今已有二十余载,本文将对目标检测领域近20年的发展做一次系统性的介绍,并为目标检测构建一个完整的知识体系架构. 引言目标检 ...
DL之SSD：SSD算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之SSD:SSD算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略相关文章 DL之SSD:SSD算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略 DL之SSD:SSD算 ...
【论文精选】基于超宽带的移动机器人室内定位系统设计

卢靖宇1,2,余文涛1,2,赵新1,2,孙广毅1,2 (1.南开大学计算机与控制工程学院,天津300350:2.天津市智能机器人技术重点实验室,天津300350) 摘要: 针对目前移动机器人 ...
YOLO系列之YOLO

实时目标检测一直是yolo系列的追求之一,从yolo v1开始,作者就在论文中强调real-time.在后期的v2和v3的发展过程中,慢慢在P&R(尤其是recall rate)上下不少功夫. ...
CVPR2021：单目实时全身动作捕捉（清华大学）

计算机视觉工坊 121篇原创内容 Official Account Monocular Real-time Full Body Capture with Inter-part Correlations ...
筋膜中的五大人体动作链系统

人体的动作是美丽且复杂的,不会是个线性或只存在一个平面的方向. 当动作结合了两个甚至多个平面,形态就会像是螺旋状,更精确地说,就像DNA的螺旋形状. 筋膜(Fascia)是我们传递力量的组织,它能储存 ...
书法模拟的人体动作

文:高天晨书法从实用的汉字书写到一种艺术性文化性的形式,从起初的文字书写记录,到用笔墨营造一个情感与才思的美学境界.可以说,书法艺术是以汉字为依托,却用笔墨的变化,塑造了一个类似人的精神与生理状态. ...
ACDnet：一种基于流导向特征近似和内存聚合的实时边缘计算的动作检测网络

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
Xsens MVN Awinda人体动作捕捉系统

MVN Awinda的独特之处在于不受环境光线与空间距离的限制,纯净的动作捕捉数据不需要进行后处理即可录制完成,非常适用于各种实时的表演应用.动作捕捉系统采用最新的惯性传感技术,硬件效能与软件功能方面 ...
ETP：精确时序动作定位

论文地址:https://arxiv.org/abs/1804.04803 背景介绍时序动作检测,指的是在一段untrimmed video中找到感兴趣动作发生的起止时间,同时知道这个动作的具体类别 ...
SCNN-用于时序动作定位的多阶段3D卷积网络

这篇文章主要介绍Zheng Shou在CVPR2016上的工作"Temporal action localization in untrimmed videos via multi-stag ...
英伟达新研究：不用动捕，直接通过视频就能捕获3D人体动作

不靠昂贵的动捕,直接通过视频也能提取3D人体模型然后进行生成训练: 英伟达这项最新研究不仅省钱,效果也不错-- 其合成的样本完全可以用在以往只在动捕数据集上训练的运动合成模型,且在合成动作的多样性上还 ...
视频理解综述：动作识别、时序动作定位、视频Embedding

机器之心发布作者:张皓本文将介绍视频理解中的三大基础领域:动作识别(Action Recognition).时序动作定位(Temporal Action Localization)和视频 Embe ...