图像算法可以稳定处理视频了！港科大开源通用算法，解决视频处理时域不稳定问题｜NeurIPS 2020

2024-06-23 04:52:28

作者丨雷晨阳、邢亚洲

编辑丨极市平台

极市导读

许多图像处理算法虽在单个图像处理中表现出色，但将其直接用于视频时往往会遇到时域不一致问题。本文提出一种通用的框架，可将图像处理算法转换为对应的具有高度时域一致性的视频处理算法，以解决上述问题。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

arxiv链接：https://arxiv.org/abs/2010.11838
project主页：https://chenyanglei.github.io/DVP/index.html
video：

许多图像处理算法已在单个图像处理任务中表现了出色的性能，但是将它们直接应用于视频上通常会有时域不一致问题（例如闪烁问题），如图1所示。为了提高时域一致性，大多数研究人员针对不同的视频处理任务设计了专用算法，例如视频上色，视频去噪和视频超分辨率。尽管特定任务的视频处理算法可以改善时域一致性，但是能否将类似的策略应用于其他任务尚不清楚或具有挑战性。不同于前者，作者提出了一种新颖且通用的框架，该框架可以将图像处理算法转换为对应的具有高度时域一致性的视频处理算法。


输入视频帧	应用图像上色算法的预处理视频

图1. 将图像算法应用上视频上

作者观察到一种称作深度视频先验（Deep Video Prior, DVP）的现象：利用视频帧来训练卷积网络的过程中，视频不同帧之间的对应图像块的网络预测输出倾向于一致。 此外，作者认为，视频中的闪烁现象类似于时域中的”噪声“，可以通过该深度视频先验来进行校正。具体而言，在尝试拟合带有闪烁问题的预处理视频时，网络会首先拟合视频中的共同特征，最后才会拟合到不稳定的闪烁噪声。



预处理视频	算法输出

图2. 利用作者算法处理一个不稳定的预处理视频

图3. 算法框架对比

将输入视频帧通过应用图像处理算法f可获得相应的预处理帧（）。例如，图像处理算法f可以是图像着色，图像去雾或任何其他算法。该框架通过输入视频和预处理视频来获得具有时域一致性的输出视频，如图2所示。该算法整体框架如图3所示，作者使用一个全卷积网络g模仿原始图像算法f，同时保持时域一致性。与前人工作(Lai et al.) 不同，训练仅需单个视频，并且仅使用单个帧进行每次训练迭代。作者对网络进行进行随机初始化，然后可以在每次网络优化迭代中使用单个数据项对其进行优化，而无需进行任何显式正则化（如光流等）。如图2所示，视频的时域稳定性得到了较大提升。

图4. 两种时域不稳定现象

作者发现许多时域不一致问题属于单模态不一致：所有预处理帧接近于同一模式但是相互之间略有不一致。然而，对于某些任务，存在单一输入具有多种可能预测结果（例如，在上色算法中，汽车可能会被着色为红色或蓝色）。在这种情况下，如图4右图所示，预处理视频中的时间不一致在视觉上更加明显。由于多个模态之间的差异可能很大，因此对不同模式进行平均会导致较差的性能，这与任何一种可能的输出都相去甚远。以前的方法无法生成一致的结果[19]或倾向于大大降低原始性能[3]。

作者提出了一种迭代加权训练（IRT）策略来处理多模态时域不一致的问题，因为它无法被基本的深度视频先验（DVP）来解决。在IRT中，置信度旨在为每个像素从多种模式中选择一种主模式，而忽略离群值（一种次要模式或多种模式）。作者通过增加网络输出中的通道数量（例如，两个RGB图像为六个通道）以获得两个输出：一个主帧; 和一个离群帧。最终我们通过置信图来选择不同的像素用以训练两个不同的帧。

作者首先通过实验中的7个任务评估框架，包括视频上色、视频去雾、视频增强、视频白平衡等等。作者利用两个指标分别评估视频稳定性和效果退化问题并且在两个指标上都超过了盲视频时域一致性领域内最好的算法。作者也进行了一个user study，在大多数任务上作者的结果最受喜爱。

‍

‍图5. 算法效果对比示例‍

‍

如图5所示，在上色和白平衡的任务中，作者的算法得到了时域一致性的结果，同时最大程度上保留图像算法的效果。

‍

图6. IRT的影响‍

‍

如图6所示，通过使用IRT策略，在面临多模态不一致问题时，作者算法依旧可以得到时域稳定的效果。

‍

图7. 不同网络结构的影响‍

‍

如图7所示，作者验证了深度视频先验（DVP）在多种网络结构上都是有效的。

总结

作者提出了一种简单而通用的方法来提高经图像算法处理的预处理视频时的时域一致性。基于作者观察到的深度视频先验（DVP），作者通过利用单个视频从头训练CNN来实现时域一致性。与以前的工作相比，作者的方法要简单得多，并且可以产生令人满意的结果（更好的时域一致性以及更大程度保留原始算法效果）。作者的迭代加权训练（IRT）策略还很好地解决了具有挑战性的多模态不一致问题。作者认为，所提出的方法的简单性和有效性可以将图像处理算法转化成其对应的视频处理算法。因此，利用该框架，人们可以将最新的图像处理算法直接应用于视频。

作者方法的局限性之一是相对较长的测试时间。尽管作者的方法不需要训练大型数据集，但需要为每个视频训练一个单独的模型，与Lai等人相比，比直接推理要花费更多的时间。但是，与以前采用显式采用光流来增强时域一致性的方法不同，作者证明了这一点，通过神经网络训练可以隐式地实现视频先验（即时域一致性）。

作者表示，他们将专注于提高效率以缩短实际应用中的处理时间。此外，作者相信DVP的概念可以进一步扩展到其他类型的数据，例如3D数据和多视图图像。DVP不依赖于视频帧的顺序，并且自然应适用于维护多个图像之间的多视图一致性。对于3D volume数据，3D CNN也可能表现出DVP的相似属性。

作者介绍

雷晨阳，香港科技大学三年级博士生，博士导师陈启峰，本科毕业于浙江大学，主要研究领域：计算摄影学，图像处理和视频处理，low-level computer vision，3D vision。

邢亚洲，香港科技大学三年级博士生，博士导师陈启峰，本科毕业于武汉大学，主要研究领域：计算摄影学，图像增强，low-level computer vision。

Tips

◎本文为论文作者原创投稿，转载请注明来源。

4K智能跟踪HDR高动态图像处理双镜头摄像机方案设计

一款4K双镜头跟踪摄像机,采用Sony高性能大靶面1/2.5英寸857万Exmor CMOS 成像传感器,支持12V及PoE双电源供电.智能取景算法,全景广角110°拍摄与会人员,自动调整全景画面居中 ...
【博文连载】【VGA+USB】灰度图像的均值滤波算法实现

图像处理算法可以在RGB域处理,也可以在灰度域处理,牛逼的还可以在Bayer处理.但是大部分目标识别.跟踪.检测等图像处理算法,都是灰度域处理的,因为灰度除了没有色度,以及包含了基本图像处理所需的信息 ...
【精品博文】关于FPGA图像处理算法验证板

淘宝网和电子论坛,卖开发板都是烂大街了.说实在的,视频处理开发板也是挺多的.但是说实在,总感觉很多fpga图像处理板子,无非简单利用摄像头做做图像插值,滤波器,二值化处理. 但真正项目有这么简单吗?图 ...
【学习笔记】基于Zynq-7000的宽幅视频处理系统设计与实现

2016年电子技术应用第6期作者:韩德强,杨利平,王宗侠摘要: 针对安防监控与智慧交通领域无盲区视频摄录的需求,基于Zynq-7000平台优势进行宽幅视频处理软硬件系统的设计.通过研究基于嵌入 ...
保姆级计算机视觉学习路线

因工作需要,年初花了4个月左右时间学习了机器学习.神经网络相关的知识,工作日每天大概学习4-6个小时,周末每天大概10个小时,工作中的需求应对也得心应手了. 想快速入门的话,从自己的经验看,可以先不看 ...
【杂谈】如果你想快速系统掌握计算机视觉大部分领域，学习人脸图像是唯一选择

笔者是从传统图像算法开始进入计算机视觉行业的,那一批人基本上都是从人脸图像和文本图像开始学,而如今很多计算机视觉从业者却从来没有接触过人脸图像相关的算法,或许真的是时代变了吧. 但笔者想说的是,如果你 ...
【CV春季划】170分钟学习OpenCV与经典图像处理算法基础

本次给大家带来的是有三AI-CV春季划组OpenCV与经典图像处理算法的直播回放,如果你还不知道有三AI-CV春季划是什么,可以看下面的视频和图文. 点击边框调出视频工具条 [CV春季划]言有三手把手 ...
一种近地背景下红外弱小目标检测预处理算法

0 引言红外弱小目标检测技术作为红外探测系统的关键技术之一,其算法的有效性直接影响着红外设备的探测性能,因此,红外弱小目标检测算法始终是红外探测领域的研究热点之一[1-2]. 多年来,红外弱小目标检 ...
【直播】5.25日晚摄影图像处理原理与实践直播、赠书+书籍解读+案例剖析

各位朋友,本周二晚8点(5月25日20:00),有三会开设一场深度学习与摄影图像处理相关的直播,届时会有书籍内容解读,实践案例讲解,赠书+纪念文化产品等环节,欢迎大家及时参与! 直播主题本次主题是带 ...
图像反光能被一键去除了？港科大开源RFC，仅用一个操作，强反光也能完美去除｜CVPR2021

作者丨雷晨阳审稿丨邓富城编辑丨极市平台极市导读本文介绍一篇来自香港科技大学中稿CVPR2021的工作,工作采用了硬件和软件结合做底层图像处理的方法,主要介绍了一种鲁棒性和精确性都很强的去反光算 ...
不仅搞定“梯度消失”，还让CNN更具泛化性：港科大开源深度神经网络训练新方法

Tips ◎作者系极市原创作者计划特约作者Happy 欢迎大家联系极市小编(微信ID:fengcall19)加入极市原创作者行列 paper: https://arxiv.org/abs/2003.1 ...
EMNLP2021 “Transformer+预训练”再下一城，港科大开源高效的"多模态摘要总结"网络

▊ 写在前面多模态摘要总结(Multimodal abstractive summarization,MAS)模型总结了视频(视觉模态)及其相应的文本(文本模态)的知识,能够从互联网上的大量多模态数 ...
倪明选当选港科大(广州)首任校长，曾任国家973计划首席科学家

中国工程报业融媒体中心|香港讯香港科技大学4月19日宣布,科大校董会及香港科技大学(广州)(筹)(港科大(广州))理事会一致通过,委任倪明选教授出任港科大(广州)的创校校长,并将在教育部正式批准 ...
港科大唐本忠院士团队、南开朱春雷研究员Angew：超支化聚电解质-多组分聚合及光动力生物图案化

聚电解质在生物体系和生产生活中都扮演着重要角色.在各种聚电解质中,超支化聚电解质以其特殊的三维支化结构而具有独特性质:但目前超支化聚电解质的合成仍具有较大挑战.通常,超支化聚合物可通过AB2单体缩聚而 ...
【完整视频】莫斯科大剧院首次在线放映芭蕾舞剧《天鹅湖》

为庆祝国际戏剧节,鉴于新冠疫情的特殊性,莫斯科大剧院首次全球在线放映经典芭蕾舞剧,详见莫斯科大剧院油管官方页面,3月27日19:00 天鹅湖, 3月28日 19:00 睡美人,4月1日 19:00 ...
港科大《EES》：效率17.7％！迄今为止这种有机太阳能电池最高值

有机太阳能电池(OSC)领域已朝着光电器件的实际应用迈进了一大步.OSC不仅在器件性能方面可与许多无机同类产品相媲美,而且还提供了许多优势,例如重量轻.溶液处理以及在便携式和柔性面板中的潜力.在过去的 ...
港科大研发简单血液测试，可及早检测阿尔兹海默症

港科大研发简单血液测试,可及早检测阿尔兹海默症广州日报·新花城 2021/06/30 13:03 由香港科技大学(港科大)领导的一支国际研究团队,利用患者数据,成功研发出首个简单而可靠的血液检测方法 ...
快手登陆港交所成「短视频第一股」，CMC资本迎来2021年第一个IPO

持续聚焦科技.消费.文娱三大领域. 本文为IPO早知道原创作者|Stone Jin 微信公众号|ipozaozhidao 2021年2月5日,快手正式以"1024"为股票代 ...

图像算法可以稳定处理视频了！港科大开源通用算法，解决视频处理时域不稳定问题｜NeurIPS 2020

总结

作者介绍

相关推荐