这个GAN没见过猪，却能把狗变成猪

2024-04-26 01:59:45

丰色发自凹非寺

量子位报道 | 公众号 QbitAI

不用成千上万张目标图片训练，就能让GAN生成你想要的图片，有可能吗？

还真有可能！

来自特拉维夫大学和英伟达的研究人员成功地盲训出领域自适应的图像生成模型——StyleGAN-NADA。

也就是只需用简单地一个或几个字描述，一张目标领域的图像也不需要，StyleGAN-NADA就能在几分钟内训练出你想要的图片：

比如现在在几张狗狗的基础图片上输入“Sketch”，不到1分钟，一张张草图风格狗的图片就出来了。(视频没有声音可放心“食用”)

再比如在人像上给出文字“Pixar”，就能生成皮克斯风格的图片：

各种人像风格都可以：

甚至把狗变成猪也行：

问题来了，AI不可能生成它完全没有见过的照片，但是又不给它参考照片，那怎么满足要求呢？

基于CLIP

答案就是借助CLIP的语义能力。

CLIP是OpenAI提出的根据文字生成图片的DALL模型的图像分类模块，可以根据文字描述给图片的匹配程度打分。

今年年初，就有人用CLIP做出了一个用“大白话”检索图片的功能，效果还挺惊艳的。

△输入“The word love written on the wall”的搜索结果

总的来说，StyleGAN-NADA的训练机制包含两个紧密相连的生成器Gfrozen和Gtrain，它俩都使用了StyleGAN2的体系结构，并共享同一个映射网络，因此也具有同一个隐空间（latent space）和隐码（latent code），所以它们在最开始生成的图像是一样的。

首先使用在单个源域（例如人脸、狗、教堂或汽车数据集）上预训练的模型权重初始化这两个生成器。

由于最终目标是生成一个风格不一样的图像，那就要更改其中一个成对生成器的域，同时保持另一个作为参考域。

具体的话就是Gfrozen的权重保持不变，而Gtrain的权重通过优化和迭代层冻结（iterative layer-freezing）方案进行修改。

而Gtrain的域在通过用户提供的文本方向进行更改（shift）的同时，会保持共享隐空间（latent space）。

具体怎么“更改”呢？

这就用到了一组基于CLIP的损失（loss）和“分层冻结”（layer-freezing）方案。

该方案可以自适应地确定在每次迭代训练中最相关的子层、并“冻结”其余层来提高训练稳定性保证效果。下面就详细介绍一下这两个方法。

基于CLIP的损失（loss）

StyleGAN-NADA依靠预先训练的CLIP作目标域的唯一监督来源。为了有效地从CLIP中提取“知识”，一共用了三种损失算法：

（1）负责确定在每次迭代中训练哪个子集层的全局目标损失（Global CLIP loss）；

（2）旨在保持多样性的局部定向损失（Directional CLIP loss）；

（3）以及防止图像生成不必要的语义伪影的嵌入范数损失（Embedding-norm Loss）。

△局部定向损失要求源/目标图像/文字的CLIP-space方向一致

“分层冻结”（layer-freezing）

此机制分为两阶段：

（1）选层阶段，保持所有网络权重不变并对一组隐码进行优化，然后选择变化最显著的一层（优化使用目标域文本描述驱动的全局CLIP损失进行）；

（2）优化阶段，“解冻”选定层的权重，然后使用定向CLIP损失进行优化和更改。

大多数训练只需几分钟就可完成

首先，该模型可以实现范围广泛的域外自适应，从纹理变化到大的形状修改，从现实到魔幻风格……甚至包括一些收集高质量数据成本很高的目标域。

其次，所有的这些图片的生成都只需给一个简单的文字描述，除了极端情况，大多数训练只需几分钟就能完成。

对于基于纹理的修改目标，该模型通常需要300次迭代，batch size为2，在一个NVIDIA V100 GPU上训练大约3分钟。在某些情况下（比如从“照片”到“草图”），训练只需不到一分钟的时间。

然后，所有的实验用的就是这个完整当然模型，没有添加任何latent mapper。研究人员发现，对于纯粹是基于样式的图像生成，模型需要跨所有层进行训练，比如下面这种：

而对于较小的形状修改，则只需训练大约2/3数量的层数就能折中保持训练时间和效果：

最后，将该模型与StyleCLIP（结合了StyleGAN和CLIP的域内图像编辑模型）、以及只用了Gfrozen生成器的模型对比发现，只有StyleGAN-NADA可以实现目标。

再将零样本的StyleGAN-NADA与一些少样本的图像生成模型对比发现，别的都要么过拟合要么崩溃（MineGAN更是只记住了训练集图像），只有StyleGAN-NADA在保持多样性的情况下成功生成（但它也有伪影出现）。

下面是消融实验：

△通过训练latent mapper可以进一步提高生成质量

ps.在论文的最后，研究人员表示：

由于这项技术，也许在不久的将来，这类图像生成的工作将不再受到训练数据的约束，而只取决于我们的创造力。

论文地址：

https://arxiv.org/abs/2108.00946

GitHub地址：

https://github.com/rinongal/StyleGAN-nada

参考链接：

https://stylegan-nada.github.io/

— 完—

TransferI2I：小数据集图像到图像转换的迁移学习

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
PULSE:一种基于隐式空间的图像超分辨率算法

分享一篇 CVPR 2020 录用论文:PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generati ...
组合式创新？CLIP+VQGAN

ace 新旧交替之际,不同时代的审美.这个现象真有趣~~ 知识库最近有大量使用CLIP+VQGAN的数字艺术作品出现,这两项组合技术不知大家都玩过没? OpenAI的CLIP 用于连接文本与图像具 ...
CVPR2021 基于GAN的模糊图像复原

文章新智元 CVPR2021 编辑:LRS [新智元导读]马赛克的图像还能被修复?只要给深度学习模型足够的想象能力就能做到!CVPR2021上一篇论文能够相当逼真地修复低清晰度的人像照片,但网友却表 ...
经典GAN不得不读：StyleGAN

A Style-Based Generator Architecture for Generative Adversarial Networks 1. 摘要 StyleGAN受风格迁移style tr ...
揭秘腾讯微视人脸技术「黑科技」，基于GAN的人脸魔法特效 – 我爱计算机视觉

作者:微视团队随着小视频越来越流行,兼具趣味与人物个性的人脸特效成为小视频软件的标配,美颜自不必说,现在的人脸特效可谓"千变万化",人脸年轻化.变欧美范儿.发型改变.各种表情.胖 ...
FamilyGan：预测我们未来孩子的模样

重磅干货,第一时间送达你是否想知道自己未来的子女是长什么样子的? 这篇文章中,我们将介绍FamilyGan,用于查看未来子女得样子.这是在DataHack 2019期间所做的一个竞赛项目,并赢得了L ...
GANs是如何创造出高分辨率的图像的

本文主要介绍DCGAN适应渐进式增长创建高分辨率图像的思路深度卷积生成对抗网络是2020年最精致的神经网络体系结构.生成模型可以追溯到60年代,但是Ian Goodfellow在2014年创造的GA ...
【杂谈】GAN最成功的3个商业化落地领域，你是否了解过？

图像生成与编辑领域 GAN的诞生之初,就是做数据生成,如今在一些领域可以说是非常的成熟了,其中尤其是StyleGAN为代表的高清人脸生成领域. StyleGAN结合独创的mapping network ...
看我七十二变…

opus 想随手拍张照片,但光线不是太暗就是背景太乱,整个景色瞬间变的索然无味. 你是不是也希望背景的云彩自带美颜,把你想拍的景,衬托得各种恢弘大气! 最近刚好就看到有家公司做了这样的产品:lumin ...
给你看个宝贝：GitHub 最野的开源模型库！

前阵子抖音爆火的应用蚂蚁呀嘿都笑过吧?这技术让一向严肃认真的giao哥都多了几分俏皮,这么秀的代码,必须狗一波.于是本狗啊不本人有了一个温暖(欠揍)的想法:想弄一个自家爹妈爷爷奶奶一起摇摆的鬼畜视频. ...
谷歌完成Chimera Painter开发，一步生成怪物角色，人人都是画家

2020年11月,谷歌宣布完成了 Chimera Painter 的开发工作.通过这款网页工具,能够让任何人在类似于微软画图应用的界面中使用<暗黑破坏神>的方式来生成各种可怕的噩梦生物.虽 ...
【每周CV论文】初学GAN图像风格化必须要读的文章

欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像风格化是生成对抗网络的一大应用,今天给大家推 ...
LeCun转发AgileGAN：人脸转卡通、漫画、油画

来源:外媒编辑:新智元 LRS [新智元导读]如何把肖像画变成动漫形象一直是一个研究热点,最近NTU的一个华人博士生提出一个新模型AgileGAN,效果碾压老牌模型.把LeCun的肖像画输入进去,竟 ...
零样本风格迁移：多模态CLIP文本驱动图像生成

重磅干货,第一时间送达来源:GitHub ,新智元 [导读]零样本的风格迁移听说过没有?英伟达一个实习生小哥集文本CLIP和图像生成StyleGAN于一身,只需要输入几个单词就可以完成你想要的风格迁 ...
字节跳动开源最新 GAN 压缩算法，算力消耗可减少至 1/46

8月27日消息,字节跳动近期开源了一项代号为OMGD的压缩技术.这是字节自研的GAN(生成对抗网络)压缩算法,在保证生成效果不变的前提下,算力消耗最低可以减少到原来的1/46,相比之前业界的最佳压缩效 ...

这个GAN没见过猪，却能把狗变成猪

相关推荐