ECCV2020 Oral｜基于互编解码器以及特征均衡化的图像修复

2024-06-23 21:42:06

加入极市专业CV交流群，与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

Tips

◎本文为极市开发者原创投稿，转载请注明来源。

◎极市「论文推荐」专栏，帮助开发者们推广分享自己的最新工作，欢迎大家投稿。联系极市小编(fengcall19)即可投稿~

论文：https://arxiv.org/abs/2007.06929
代码：https://github.com/KumapowerLIU/Rethinking-Inpainting-MEDFE

这份工作的一部分是我在腾讯 AI lab实习期完成的。我去年被 ICCV 2019接收的工作也是关于图像修复方面，大家感兴趣的话可以看看 ICCV2019|基于语义连贯性的图像修复，全新的迭代 Coherent Attention 机制提升修复效果，已开源

Image inpainting 一直是一个重要的课题，最近基于attention以及双阶段的模型非常流行，像gated conv/coherent semantic attention/edge connect/structure flow等等。图像修复的目标是重建合理的整体结构以及真实的细节（纹理），双阶段的模型往往在第一阶段得到一个coarse的图像，这个图像上的结构已经修复的不错，再在第二个阶段进行细节的修复。但是这些都是基于image level上，我们的工作想把纹理和结构的修复放在feature上，从而达到更好的效果并且在单阶段网络中实现，因为图像本就是纹理和结构组成，两者紧密相连互相影响。

所以我们的出发点就是在单阶段网络中并且在feature层级上修复图像的纹理和结构，并且将修复好的纹理和结构组成一张完整的特征图从而达到修复的效果。

上图是我们的模型架构图，在CNN中，越深的卷积层代表着结构信息（高级语义信息），越浅的卷积层代表纹理以及细节信息（低层级信息）。我们利用这种概念，将编码器的特征分成两个部分（流），前3层代表纹理信息，后3层代表结构信息，前三层和后三层分别integrate起来变成32×32×256大小的卷积，其中Fte代表前三层的integrated features也就是充满纹理的feature, Fst代表后三层的integrated features也就是充满结构信息的feature.

那么如何去修复这些feature的孔洞区域？ 我们将Fst和Fte分别通过多尺度修复模块来修复孔洞区域，具体来说多尺度修复由三个不同卷积大小的partial conv[1]流组成，他们的kernel size分别是3，5，7， Fte和Fst经过多尺度修复模块后就是图中的Ffst以及Ffte.

那么如何能够保证这些feature能够真正关注纹理或者结构呢？ 我们用了最简单的constrain，我们将Ffst以及Ffte用1×1的卷积映射到RGB层（Ffst映射后的图为Iost，Ffte映射后的图为Iote）并于ground truth计算L1 loss，其中Iost的ground truth是结构图(Ist)，这张结构图是将原图通过RTV[2]后抹去纹理生成的，而Iost的ground truth就是原图(Igt, 有纹理和细节的图)。这种constrain如下图所示：

那么通过这种设计，我们的解码器就分出两个流，一个是结构流一个是纹理流，这两个流分别通过多尺度修复模块进行孔洞填充，并且分别有自己的constrain保证孔洞填充效果并且促使每个流关注纹理或者结构。

Feature Equalizations

结构和纹理的feature到此时一直是分开的并且都被填充完了，但是一张图是由结构和纹理一起构成，如何将其融合呢并且形成一张完整的特征图呢？我们提出了特征均衡化来解决这个问题（Feature Equalizations).如Fig.1所示，我们将Ffst以及Ffte拼接并且通过1×1的conv后得到了一个简单融合Fsf, 接着Fsf通过我们的特征均衡化来进行更好的融合，特称均衡化包括两个维度的均衡，一个是channel上的一个是spatial上的，其中channel上的均衡我们通过SE-block实现，因为其中的attention值是由Fsf得到，而Fsf已经包含了结构和纹理的特征信息，所以这些attention是由结构和纹理信息一起得来从而保证了均衡化。在spatial上，我们提出了双边激活函数 bilateral propagation activation function (BPA). 我们从双边滤波得到启发，对于每个特征点，我们利用周围的特征点(3×3)以及全局的特征点(32×32)来融合成新的特征点. 具体来说：

bilateral propagation activation function

其中就是在spatial上融合得到特征点而就是在range上融合得到的特征点，这里的spatial和range的概念与双边滤波中的一样。其中我们定义spatial的范围为全图，也就是当前特征点是通过全图所有特征点融合生成，每个特征点的weight是通过距离来计算，近大远小（这里我们用高斯分步来计算）。在range上我们定义范围为3×3，当前特征点（中心点）由周围9个特征点（包括当前特征点本身）融合得到，这些特征点的weight通过与中心点做点极得到。得到和之后，我们利用1×1的卷积对这两个特征点进行融合。通过这种方式，当前特征点可以由周围的以及全局的特征点构成，保证了局部以及全局的特征一致性。从而可以保证孔洞里面的内容连贯，并且保证孔洞周围与background的一致性。

特征均衡实现流程

结果展示：

真实数据上的结果展示：

cnn中权值共享理解

第一步,针对一个神经元,一幅640*360图像,一个神经元要对应640*360个像素点,即一个神经元对应全局图像,全连接的话一个神经元就有640*360个参数: 第二步,然而,图像的空间联系是局部的, ...
S2-MLPV2：目前最强的视觉MLP架构，空降榜一，达到83.6% Top-1准确率

0 写在前面随着ResMLP.MLP-Mixer等文章的提出,基于MLP的backbone重新回到了CV领域.在图像识别方面,基于MLP的结构具有较少的假设偏置,但是依旧能够达到与CNN和Visio ...
经典的图像语义分割模型

经典的基于 CNN 的图像语义分割模型有 FCN.SegNet.U-Net.PSPNet 和 DeepLab,主要针对 FCN.SegNet 和 DeepLab 三个经典模型进行简要介绍. ...
【图像分割模型】编解码结构SegNet

这是专栏<图像分割模型>的第2篇文章.在这个专栏里,我们将共同探索解决分割问题的主流网络结构和设计思想. 上篇文章我们学习了分割网络鼻祖FCN,今天我们来看看用解码器踢馆的SegNet. ...
用于图像分割的深度学习架构

基于人工智能和深度学习方法的现代计算机视觉技术在过去10年里取得了显著进展.如今,它被用于图像分类.人脸识别.图像中物体的识别.视频分析和分类以及机器人和自动驾驶车辆的图像处理等应用上. 现代图像分割 ...
每日一词：feature

今天我们要学习的词是:feature [ˈfiːtʃə(r)]vt. / n.1.特色,特征an interesting feature of city life 城市生活的一个有趣的特征2. 专题T ...
自闭症患者发现更难识别面部表情中的愤怒

根据伯明翰大学的一项新研究,自闭症患者准确识别面部表情的能力受到表情产生速度及其强度的影响. 特别是,自闭症患者往往无法从以正常"现实世界"速度产生的面部表情中准确识别愤怒.研究人 ...
Transformer在计算机视觉领域走到哪了？

编者按:Transformer 模型在自然语言处理(NLP)领域已然成为一个新范式,如今越来越多的研究在尝试将 Transformer 模型强大的建模能力应用到计算机视觉(CV)领域.那么未来,Tra ...
千层石的形态特征

千层石是沉积岩的一种,纹理成层状结构,在层与层之间夹一层浅灰岩石,石纹成横向,外形似久经风雨侵蚀的岩层.因其沉积年代及硅化程度的不同,形成的层理结构迥然有异,沉积年代久远的千层石近于玉质.千层石外形平 ...
论文速递 | 基于金字塔及双边注意力机制的图像修复新方法

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
BEFD：基于边界增强和特征去噪的血管分割

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为 ...
网络首发|基于深度学习与特征可视化方法的草地贪夜蛾及其近缘种成虫识别

草地贪夜蛾入侵我国后,对我国的粮食生产安全产生了巨大威胁.人工智能技术作为辅助手段,可以为草贪的监测赋能,但深度学习技术在图像分类领域黑盒化的工作模式让识别模型的可解释性和可靠性都打上了一个问号. 作 ...
魏靖、王玉亭等：基于深度学习与特征可视化方法的草地贪夜蛾及其近缘种成虫识别（2020年第3期）

基于深度学习与特征可视化方法的草地贪夜蛾及其近缘种成虫识别魏靖1,王玉亭1*,袁会珠2,张梦蕾1,王振营2* (1. 深圳市识农智能科技有限公司,广东深圳 518063:2. 中国农业科学院植物 ...
ACM第一名：基于轨迹感知多模态特征的视频关系检测

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为 ...
青年女性出现大量脐凹状皮疹，双肺弥漫性病变，疾病诊断与治疗调整基于哪几种特征？

编前语年轻女性40余天前开始咳嗽.发热.气促:20天前面部开始出现皮疹,食欲减轻.全身乏力,经肺泡灌洗及影像学检查.两次血培养后明确了啥?临床上的哪些症状是重要提示?在浦江论坛现场,CT影像展示刚进 ...
JCIM｜XGraphBoost：基于图神经网络提取特征的一种更好的分子特性预测模型

今天给大家介绍的是 Journal of Chemical Information and Modeling 上,一篇有关提取图神经网络特征.更好地预测分子特性的方法的文章 "XGraphB ...
基于深度特征重建的图像缩放 | CVMJ Spotlight

内容敏感的图像缩放旨在改变图像分辨率的同时保持图像中的重要内容并尽量减少产生不自然的细节.传统的图像缩放工作都是直接在图像空间上进行变换.最新一期Computational Visual Media ...
学术︱一种基于线电感变化特征的永磁同步电机转子初始位置检测新方法

东南大学伺服控制技术教育部工程研究中心.飞行器控制一体化技术重点实验室的研究人员孟高军.余海涛等,在2015年第20期<电工技术学报>上撰文,具有转子凸极结构的永磁同步电机中受转子凸极效应 ...

ECCV2020 Oral｜基于互编解码器以及特征均衡化的图像修复

Feature Equalizations

结果展示：

相关推荐