ACDnet:一种基于流导向特征近似和内存聚合的实时边缘计算的动作检测网络
重磅干货,第一时间送达
小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
解释人类行为需要理解场景的空间和时间背景。最先进的基于卷积神经网络(CNN)的动作检测器,在采用双流或3D CNN架构时,表现出了显著的效果。然而,由于系统的复杂性,这些方法通常以非实时、离线的方式操作,以推理时空信息。因此,他们的高计算成本不符合新兴的现实场景,如服务机器人或公共监控,检测需要在资源有限的边缘设备。在本文中,作者提出了一种紧凑的动作检测网络ACDnet,它以实时边缘计算为目标,同时提高了效率和准确性。它聪明地利用连续视频帧之间的时间一致性来近似它们的CNN特征,而不是单纯地提取它们。它还整合了过去视频帧的记忆特征聚合,以增强当前检测的稳定性,随着时间的推移隐式建模长时间线索。在公共基准数据集UCF-24和JHMDB-21上进行的实验表明,ACDnet与SSD检测器集成后,可以较好地实现超过实时(75 FPS)的检测。同时,与使用更重配置的其他性能最好的方法相比,它保持了合理的精度(70.92和49.53帧映射)。
代码链接:https://github.com/dginhac/ACDne
论文创新点
据作者所知,这是第一次尝试应用特征近似和聚合技术来实现有效的动作检测,从而使资源有限的设备受益。总之,作者的贡献有三方面:
作者提出一个集成的检测框架,ACDnet,以解决检测效率和准确性。它结合了特征近似和内存聚合模块,在这两个方面都有改进。
作者的广义框架允许与最先进的检测器平滑集成。当与SSD (single shot detector)结合时,ACDnet可以很好地推断时空上下文,而不是实时,这对资源受限的设备更有吸引力。
作者在UCF-24和JHMDB-21公共行动数据集的准确性、效率、稳健性和定性分析方面进行了详细研究。
说明ACDnet推理管道
(a)在初始帧,特征提取子网络(Nf eat)获取特征。(b)对于非关键帧(密集帧),流子网络(Nf low)估计非关键帧与其前一个关键帧之间的一对流场和位置比例图。产生的流场用于传播外观特征,然后通过元素相乘的比例图来细化外观特征。(c)在关键帧(稀疏)处提取新的特征。然后,它们通过Nf low和聚合子网络(Naggr)与那些从过去的关键帧(内存特性)聚合。融合的特征将用于检测(Ndet),也作为更新的记忆传递。
训练过程
每个小批包含三个帧(Imem, Ik,和Ii)和Ii的groundtruth。
适应于多尺度特征近似和聚合的流量估计子网络。所描述的设计符合SSD300和FlowNet的体系结构。
ACDnet (FA, MA)改进基准SSD的示例。绿色/红色框分别代表正确/错误的检测。
由作者改良的FlowNet生成的位置比例尺地图。比例尺地图(底部行)只是通过扩大比例来加强与参与者相关的激活(顶部行),而不会改变其他特征区域的激活。
结论
本文提出了一种具有实时性的紧凑动作检测网络ACDnet。通过利用视频帧间的时间一致性,对具有相似视觉外观的帧使用特征近似,显著提高了检测效率。此外,还引入了内存聚合模块来融合多帧特征,提高了检测的稳定性和准确性。两个模块和SSD检测器的组合以一种廉价的方式隐式地解释了时间上下文。ACDnet在公共基准上展示了实时检测(高达75帧/秒),同时在远不那么复杂的设置下,与其他表现最好的设备相比,它保持了相当好的准确性,这使得它在实际应用中更吸引边缘设备部署。作者未来的工作包括进一步研究具有成本效益的时空建模架构和执行时空定位。对于一个完全集成和资源高效的视觉系统,将探索当前子网的轻量级替代方案,作者将精确定制候选解决方案,以将它们嵌入到诸如NVIDIA Xavier GPU等边缘设备上。
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。深度学习爱好者 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
深度学习爱好者 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
· 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
· 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
· 深度学习爱好者 默认每篇文章都是首发,均会添加“原创”标志