基于用户直观输入的深度学习图像生成技术 | CVMJ Spotlight
日前,Computational Visual Media期刊上线发表了一篇综述论文 [1],对基于用户直观输入的真实感图像生成技术进行了系统的回顾,涵盖了文本、草图、语义图、人体姿态、属性、场景图、布局等多种用户输入方式,对所用到的不同深度生成模型做以了概述和对比,总结了常用的基准数据集和评价指标,并从输入表示、可交互性、图像生成范式、评价指标等方面总结了目前所遇到的挑战,展望了未来研究方向。这篇综述论文由美国宾州州立大学黄晓蕾副教授及其学生和清华大学张松海副教授等合作,在CVMJ上联合发表。
机器学习和人工智能已经可以在目标识别、文本翻译、策略博弈等许多方面达到与人类相当的水平甚至胜过人类。那么更进一步,计算机能否模仿创作过程,从而协助人类进行内容的创作和生成?过去的十年中,真实感图像生成技术取得了长足的进步,现有方法在一定条件下已经可以合成人眼难以辨认真假的图像。在这些技术中,基于用户直观输入的方法更加引起我们的关注:通过文本、草图等简单易得的内容进行图像合成,将极大提升人类的创造能力,扩展内容生成的边界。文章将直观用户输入定义为有以下特性的输入形式:
易于获取。输入应该易于获取,尤其是对于非专业人士。以草图为例,即使没有任何绘画技能的人也可以通过草图来表达粗略的想法。
表现力强。输入应具有足够的表现力,使用户不仅可以传达简单的概念,还可以传达复杂的想法。
交互性高。输入应该具有一定的交互性,以便用户交互地修改输入内容并以迭代的方式调整合成输出。
文章主要探讨了基于文本、草图、语义图、人体姿态、属性、场景图、布局等七种直观用户输入的图像合成技术,并重点分析总结了前四种输入所对应技术的发展路线:
基于文本的图像合成:文本到图像合成的任务使用描述性句子作为指导,生成与输入对应的图像。自然语言提供了一种灵活描述视觉概念和对象的方式,因此文本是最直观的用户输入类型之一,文本到图像的合成备受研究界关注。由于文本和图像属于截然不同的两个模态,因此基于文本的合成最大的挑战在于挖掘文本和图像元素间的对应关系。
图1 基于文本的图像合成示例 [2]
基于草图的图像合成:草图可以让没有专业绘画技能的人也能直观地表达关于想要合成的图像的意图。随着触摸屏的广泛使用,草图绘制变得非常容易,研究者们越来越重视对手绘草图的理解和处理。从草图生成真实感图像的难点在于不仅要保证合成的图像与用户输入的草图在空间上对齐,同时还要保持语义的一致性。
图2 基于草图的图像合成示例 [3]
基于语义图的图像合成:从语义图合成真实感图像是语义分割的逆问题,在可控图像合成和图像编辑方面有重要的应用。基于语义图的合成挑战在于保证图像真实感的同时维持语义的一致性。基于语义图的合成目前主要应用于室内外场景和人体图像的合成。
基于人体姿态的图像合成:合成人体图像另一种常用的直观输入是人体姿态。给定参考人物图像、其对应姿态和新姿态,基于姿态的图像合成方法可以生成新姿态下该人物的图像。与基于草图或语义图的合成不同,姿态引导的合成需要生成全新的视图,很难通过检索和拼接来实现。因此,相关技术多为基于深度学习的方法。
输入模态表示:对于文本,目前技术的输入通常是对于画面中物体的客观描述。引入包含情感等因素的自然化表述,以及支持包含领域相关知识的结构化文本,是值得探究的方向。对于草图、语义图、人体姿态等形式,目前的技术通常将输入转换为栅格化图像,丢失了包括空间关系在内的信息,探究矢量化的输入方式是有待探索的方向。 图像合成方法:不同图像合成技术的结合是未来重要的发展方向。例如,传统的检索拼接方法与基于深度学习的方法结合,可以降低模型复杂度、减少训练成本;生成对抗网络(GANs)和变分自编码器(VAEs)相结合,可以在得到高质量合成结果的同时,提升合成过程的可交互性和可控性。
数据集和评价指标:目前被广泛使用的图像质量和多样性评价指标,如IS、FID、SSIM等,仍然在很多情况下与人类感知有着较大的差异,因此现有方法仍依赖定性化评价来进行合成结果的分析。探索与人类感知更加相符的评价指标是重要的研究方向。除此之外,构建领域相关的图像合成数据集、设计合理的标注方式也有助于扩大技术的应用范围。
参考文献
Yuan Xue, Yuan-Chen Guo, Han Zhang, Tao Xu, Song-Hai Zhang, and Xiaolei Huang, Deep image synthesis from intuitive user input: A review and perspectives, Computational Visual Media, 2022, Vol. 8, No. 1, 3–31.
Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, and Xiaodong He, Attngan: Fine-grained text to image generation with attentional generative adversarial networks, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, 1316-1324. Tao Chen, Ming-Ming Cheng, Ping Tan, Ariel Shamir, and Shi-Min Hu, Sketch2photo: Internet image montage, ACM transactions on graphics, 2009, Vol. 28, No. 5, 1-10. Peihao Zhu, Rameen Abdal, Yipeng Qin, and Peter Wonka, Sean: Image synthesis with semantic region-adaptive normalization, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, 5104-5113.
张松海,清华大学计算机系副教授。研究方向为图像/视频处理、图形学与虚拟现实。在IEEE Transactions on Visualization and Computer Graphics, IEEE Transactions on Image Processing, IEEE Transactions on Multimedia, ACM Siggraph、IEEE CVPR等期刊和会议上发表论文40余篇。