Transformer再下一城！low-level多个任务榜首被占领，北大华为等联合提出预训练模型IPT

2024-05-05 06:18:12

作者丨Happy

编辑丨极市平台

极市导读

来自Transformer的降维打击！北京大学等最新发布论文，联合提出图像处理Transformer。通过对low-level计算机视觉任务，如降噪、超分、去雨等进行研究，提出了一种新的预训练模型IPT，占领low-level多个任务的榜首。>>加入极市CV技术交流群，走在计算机视觉的最前沿

本文是北京大学&华为诺亚等联合提出的一种图像处理Transformer。Transformer自提出之日起即引起极大的轰动，BERT、GPT-3等模型迅速占用NLP各大榜单；后来Transformer被用于图像分类中同样引起了轰动；再后来，Transformer在目标检测任务中同样引起了轰动。现在Transformer再出手，占领了low-level多个任务的榜首，甚至它在去雨任务上以1.6dB超越了已有最佳方案。

论文链接: https://arxiv.org/abs/2012.00364

Abstract

随机硬件水平的提升，在大数据集上预训练的深度学习模型(比如BERT，GPT-3)表现出了优于传统方法的有效性。transformer的巨大进展主要源自其强大的特征表达能力与各式各样的架构。

在这篇论文中，作者对low-level计算机视觉任务（比如降噪、超分、去雨）进行了研究并提出了一种新的预训练模型：IPT(image processing transformer)。为最大挖掘transformer的能力，作者采用知名的ImageNet制作了大量的退化图像数据对，然后采用这些训练数据对对所提IPT(它具有多头、多尾以适配多种退化降质模型)模型进行训练。此外，作者还引入了对比学习以更好的适配不同的图像处理任务。经过微调后，预训练模型可以有效的应用不到的任务中。仅仅需要一个预训练模型，IPT即可在多个low-level基准上取得优于SOTA方案的性能。

上图给出了所提方案IPT与HAN、RDN、RCDNet在超分、降噪、去雨任务上的性能对比，IPT均取得了0.4-2.0dB不等的性能提升。

Method

为更好的挖掘Transformer的潜力以获取在图像处理任务上的更好结果，作者提出了一种ImageNet数据集上预训练的图像处理Transformer，即IPT。

IPT architecture

上图给出了IPT的整体架构示意图，可以看到它包含四个成分：

用于从输入退化图像提取特征的Heads；
encoder与decoder模块用于重建输入数据中的丢失信息；
用于输出图像重建的Tails。

Heads

为适配不同的图像处理任务，作者提出采用多头(multi-head每个头包含三个卷积层)架构以分别处理不同的任务。假设输入图像表示为，每个头可以生成特征(注：C默认64)。故多头架构的计算过程可以描述为：

其中表示图像处理任务个数。

Transformer encoder

在将前述特征送入到Transformer之前，需要将输入特征拆分成块，每个块称之为“word”。具体来讲，输入特征将被拆分为一系列块，其中表示特征块的数量，P表示特征块尺寸。

为编码每个块的位置信息，作者还在encoder里面添加了可学习的位置编码信息。这里的encoder延续了原始Transformer，采用了多头自注意力模块和前向网络。

encoder的输出表示为,它与输入块尺寸相同，encoder的计算过程描述如下：

其中表示encoder的层数，MSA表示多头自注意力模块，FFN表示前馈前向网络(它仅包含两个全连接层)。

Transformer decoder

decoder采用了与encoder类似的架构并以encoder的输出作为输入，它包含两个MSA与1个FFN。它与原始Transformer的不同之处在于：采用任务相关的embedding作为额外的输入，这些任务相关的embedding用于对不同任务进行特征编码。decoder的计算过程描述如下：

其中表示decoder的输出。decoder输出的N个尺寸为的块特征将组成特征。

Tails

这里的Tails属性与Head相同，作者同样采用多尾以适配不同的人物，其计算过程可以描述如下：

最终的输出即为重建图像，其尺寸为。输出图像的尺寸受任务决定，比如x2超分而言，。

Pre-training on ImageNet

除了transformer的自身架构外，成功训练一个优化transformer模型的关键因素为：大数据集。而图像处理任务中常用数据集均比较小，比如图像超分常用数据DIV2K仅仅有800张。针对该问题，作者提出对知名的ImageNet进行退化处理并用于训练所提IPT模型。

这里的退化数据制作采用了与图像处理任务中相同的方案，比如超分任务中的bicubic下采样，降噪任务中的高斯噪声。图像的退化过程可以描述如下：

其中f表示退化变换函数，它与任务相关。对于超分任务而言，表示bicubic下采样；对于降噪任务而言，。IPT训练过程中的监督损失采用了常规的损失，描述如下：

上式同样表明：所提方案IPT同时对多个图像处理任务进行训练。也就说，对于每个batch，随机从多个任务中选择一个进行训练，每个特定任务对应特定的head和tail。在完成IPT预训练后，我们就可以将其用于特定任务的微调，此时可以移除掉任务无关的head和tail以节省计算量和参数量。

除了上述监督学习方式外，作者还引入了对比学习以学习更通用特征以使预训练IPT可以应用到未知任务。对于给定输入(随机从每个batch中挑选)，其decoder输出块特征描述为。作者期望通过对比学习最小化同一图像内的块特征距离，最大化不同图像的块特征距离，这里采用的对比学习损失函数定义如下：

其中表示cosine相似性。为更充分的利用监督与自监督信息，作者定义了如下整体损失：

Experiments

Datasets

作者采用ImageNet数据制作训练数据，输入图像块大小为，大约得到了10M图像数据。采用了6中退化类型：x2、x3、x4、noise-30、noise-50以及去雨。

Training&Fine-tuning

作者采用32个NVIDIA Tesla V100显卡进行IPT训练，优化器为Adam，训练了300epoch，初始学习率为，经200epoch后衰减为，batch=256。在完成IPT预训练后，对特定任务上再进行30epoch微调，此时学习率为。

Super-resolution

下表&下图给出了超分方案在图像超分任务上的性能与视觉效果对比。可以看到：

IPT取得了优于其他SOTA超分方案的效果，甚至在Urban100数据集上以0.4dB优于其他超分方案；
IPT可以更好重建图像的纹理和结构信息，而其他方法则会导致模糊现象。

Denoising

下表&下图给出了所提方法在降噪任务上的性能与视觉效果对比，可以看到：

在不同的噪声水平下，IPT均取得了最佳的降噪指标，甚至在Urban100数据上提升高达2dB。
IPT可以很好的重建图像的纹理&结构信息，而其他降噪方法则难以重建细节信息。

Deraining

下表&下图给出了所提方法在图像去雨任务上的性能与视觉效果对比。可以看到：

所提方法取得了最好的指标，甚至取得了1.62dB的性能提升；
IPT生成的图像具有与GT最详尽，且具有更好的视觉效果。

Generalization Ability

为说明所提方法的泛化性能，作者采用了未经训练的噪声水平进行验证，结果见下表。可以看到：尽管未在该其噪声水平数据上进行训练，所提IPT仍取得了最佳的指标。

Ablation Study

下图对比了IPT与EDSR在不同数量训练集上的性能对比，可以看到：当训练集数量较少时，EDSR具有更好的指标；而当数据集持续增大后，EDSR很快达到饱和，而IPT仍可持续提升并大幅超过了EDSR。

下表给出了对比损失对于模型性能影响性分析(x2超分任务)。当仅仅采用监督方式进行训练时，IPT的指标为38.27；而当引入对比学习机制后，其性能可以进一步提升0.1dB。这侧面印证了对比学习对于IPT预训练的有效性。

Conformer: 卷积增强的Transformer

最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的.完整的知识结构体系. 以下是要写的文章,本文是这个系列的第二十一篇,内容较为深入,需要学习基础的同学点击 ...
简单高效！浙大CAD&腾讯&哥大开源跨尺度的Transformer，显著涨点检测、分割、分类三大CV任务！

▊ 写在前面 Transformer在处理视觉任务方面取得了很大的进展.然而,现有的视觉Transformer仍然不具备在不同尺度的视觉特征之间建立attention的能力.造成这个问题的原因有两方面 ...
回顾BART模型

最近在生成相关论文时,经常看到使用BART(Bidirectionaland Auto-Regressive Transformers,双向自回归变压器)模型作为基线比较,或在BART模型上进行修改. ...
ICCV 2021 | 视觉Transformer中的相对位置编码

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 204篇原创内容 Official A ...
基于Seq2Seq的信息抽取方法在多轮对话场景的应用

基于Seq2Seq的信息抽取方法在多轮对话场景的应用
2021年了，Transformer有可能替代CNN吗？未来有哪些研究方向？

Transformer 的跨界之旅,从 2020 延续到了 2021. 2020 年 5 月,Facebook AI 推出了 Detection Transformer,用于目标检测和全景分割.这是第 ...
(12条消息) 一文读懂BERT(原理篇)

一文读懂BERT(原理篇) 2018年的10月11日,Google发布的论文<Pre-training of Deep Bidirectional Transformers for Langua ...
Transformer在计算机视觉领域走到哪了？

编者按:Transformer 模型在自然语言处理(NLP)领域已然成为一个新范式,如今越来越多的研究在尝试将 Transformer 模型强大的建模能力应用到计算机视觉(CV)领域.那么未来,Tra ...
又一篇视觉Transformer综述来了！

重磅干货,第一时间送达最近 Transformer在CV领域真的'杀疯了',很多CV垂直方向出现了不少工作.其中非常有代表性就是:DETR.ViT等. CVer上周第一时间推送了:华为&北大 ...
医用Transformer：用于3D MRI分析的通用脑编码器

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
组合式创新？CLIP+VQGAN

ace 新旧交替之际,不同时代的审美.这个现象真有趣~~ 知识库最近有大量使用CLIP+VQGAN的数字艺术作品出现,这两项组合技术不知大家都玩过没? OpenAI的CLIP 用于连接文本与图像具 ...
计算机视觉中的Transformer

作者:Cheng He 编译:ronghuaiyang 导读将Transformer应用到CV任务中现在越来越多了,这里整理了一些相关的进展给大家. Transformer结构已经在许多自然语言处理 ...
预训练模型最新综述：过去、现在和未来

©PaperWeekly 原创 · 作者 | 王馨月学校 | 四川大学本科生研究方向 | 自然语言处理 BERT.GPT 等大规模预训练模型(PTM)最近取得了巨大成功,成为人工智能领域的里程碑. ...
ICCV2021 Oral-TAU&Facebook提出了通用的Attention模型可解释性

0 写在前面通过Self-Attention和Co-Attention机制,Transformer在多个多模态下游任务中达到了SOTA的性能.这些注意模块也在其他计算机视觉任务中发挥了作用,包括目标 ...
我们用transformer干啥？

前言 2021年4月,距离论文"Attention is all you need"问市过去快4年了.这篇论文的引用量正在冲击2万大关. 笔者所在的多个学习交流群也经常有不少同学在 ...
【Transformer】从零详细解读

本文是对B站视频"transformer从零详细解读"的笔记,视频:https://www.bilibili.com/video/BV1Di4y1c7Zm?p=1 一.概述 TRM ...
华为联合北大、悉尼大学对 Visual Transformer 的最新综述

一时间,在各种视觉任务 + Transformer 的论文正如雨后春笋般涌出. 今天,来自华为诺亚方舟实验室.北京大学.悉尼大学的学者公布论文 A survey on Visual Transform ...
BERT新转变：面向视觉基础进行预训练| NeurIPS 2019论文解读

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 论文作 ...