【技术综述】计算机审美,学的怎么样了?
01
概述
究竟什么是图像美学质量呢?牛津高阶英语词典将美学定义为:“concerned with beauty and art and the understanding of beautiful things, and made in an artistic way and beautiful to look at.”视觉美学质量是视觉感知美的一种度量。图像的视觉美学质量衡量了在人类眼中一幅图像的视觉吸引力。由于视觉美学是一个主观的属性,往往会涉及情感和个人品味,这使得自动评估图像美学质量是一项非常主观的任务。然而,人们往往会达成一种共识,即一些图像在视觉上比其他图像更有吸引力,这是新兴研究领域——可计算美学的原理之一。计算美学探索如何用可计算技术来预测人类对视觉刺激产生的情绪反应,使计算机模仿人类的审美过程,从而用可计算方法来自动预测图像的美学质量。
在现实生活中,图像美学质量评价主要有以下几点应用。
1、美学辅助图像搜索
搜索引擎根据用户的查询检索大量的相关结果,然而,排在检索结果最前面的搜索结果通常不具有视觉吸引力。在这种情况下,用户需要浏览更多结果以找到既与查询相关又令人感到视觉满意的结果。此时,图像美学质量评价算法可以作为后续处理步骤,根据美学质量重新排列检索到的图像。这样使位于检索结果顶部的检索图像都是高美学质量的图像。未来,基于美学的排名还可以与其他标准相结合,以便在图像搜索引擎中提供更好的用户体验。
2、自动照片增强
照片编辑工具通常用来根据用户的意图修改照片的某些特性。像Adobe Photoshop这样的商业软件就提供了这样的工具,但这通常需要用户对设计概念和摄影理论有很好的了解。对普通用户来说,他们不清楚图像的哪些元素需要编辑,以及如何编辑它们以使图像更具吸引力。在这种情况下,自动增强图像美学质量的自动照片编辑工具是非常有用的。开发这样的工具是一个双重问题:如何编辑照片以及如何评价进行不同编辑后图像的美学效果。后者的答案是采用美学质量评价技术。一个常见的实现方法是在两个不同的编辑操作之间进行比较,选择候选方案并评估候选方案的美学质量。这些尝试证明了美学评估技术的巨大潜力,它使计算机不仅可以告诉用户照片是否美观,还可以帮助用户自动增强照片的视觉吸引力。
3、照片筛选以及相册管理
个人照片数量激增使得手动管理大量照片会很耗时。因此,开发自动有效的照片选择和管理工具是很有必要的。这类应用的输入是一个个人相册,它可以是与朋友旅行时拍的照片,也可以是家庭聚会时拍的照片。照片中可以包含多个对象,也可以是由不同设备在不同场景下拍摄的。此类应用的核心算法是评价照片的吸引力。人们希望通过图像美学质量评价算法选出美学分数高的、更有吸引力的照片。
02
研究现状
2.1 图像美学数据库
1)The Photo.Net dataset (PN)
Photo.Net数据集在[1]中有介绍。它包含20,278张图片,每张图片至少有10个评分。评分范围从0到7,7为最美观的照片。
2)The CUHK-Photo Quality (CUHK-PQ)
CUHK-PQ在[2]和[3]中有介绍。它包含从DPChallenge.com上收集的17690张图片。所有图像被赋予二元审美标签,并被分组成7个场景类别,即“动物”,“植物”,“静物”,“建筑”,“风景”,“人物”和“夜景”。下图为CUHK-PQ数据集中的示例图像(绿色框内为高质量图像,红色框内为低质量图像)及图像数量分布。
3)The Aesthetic Visual Analysis dataset (AVA)
AVA数据集在[4]中被提出。它大约包含250,000张图片,这些照片是DPChallenge.com上获取的。每张图片由78~549名评分者得分,分数范围为1到10。平均分作为每张图片的真值标签。数据集作者根据每张图片的本文信息,为每张图片都标注了1至2个语义标签。整个数据集总共有66种文本形式的语义标签。出现频率较高的语义标签有:Nature,Black and White,Landscape,still-life等。AVA数据集中的图片还做了摄影属性标注,一共有14个摄影属性,下面列出了部分属性以及包含该属性的图片数量:Complementary Colors (949), Duotones (1301), High Dynamic Range (396), Image Grain (840), Light on White (1199), Long Exposure (845)。下图为AVA数据集中的示例图像(绿色框内平均分大于5的图像,红色框内为平均分小于5的图像,两个框内右边的图像都是平均分在5左右的)及图像数量分布。
2.2 研究思路
图像美学质量评估的主流方法可以分解为两个主要部分,即特征提取部分和决策部分。
2.2.1 特征提取阶段
①人工设计特征
Yan Ke等人[5]提出了从一些摄影学知识入手构造有高层语义的特征,该论文构造的特征很少(7维),基本都是有高层语义的,描述了图片简洁性、清晰度、颜色、对比度、平均亮度(曝光度)等。Datta等人[6]用底层特征(颜色、纹理、形状、图片大小等)和高层特征(景深、三分法则、区域对比度)作为图像美学特征,共56维。Luo等人[7]认为应该把前景和背景先分离,然后把前-背景对比度作为重要特征,这篇论文用的特征更少,只有5维,包括清晰度对比度,亮度对比度,颜色的简洁性、和谐度,三分法则的符合程度。Marchesotti等人[8]直接用SIFT(BOV或者FisherVector)和局部颜色描述子来进行美学图像分类。
手动设计美学特征往往是受摄影或心理学启发,它们有一些已知的局限性。。首先,人工设计特征范围有限。其次,由于某些摄影或心理规则的模糊性以及在计算上实施的难度,这些手动设计的特征通常仅仅是这些规则的近似值,因此很难确保这些特征的有效性。即使是非常有经验的摄影师也都是使用非常抽象的术语来描述高质量的照片,很难做到量化和全面。而通用的特征如如SIFT和Fisher Vector等,是用来捕捉自然图像的一般特征,而不是专门用于描述图像的美学,因此也有很大的局限性。
②深度特征
随着基于深度学习的技术的发展,研究者们在图像美学评评估任务中引入了深度卷积神经网络[9]~[14]。由于其强大的自动特征学习能力,不需要人们有丰富的图像美学知识和摄影经验就可以自动提取图像美学特征。近几年来,深度卷积神经网络在图像美学评价方面展现出了良好的性能,成为了解决图像美学评价问题的主流方法。
虽然深度卷积神经网络在提取图像美学特征方面有着出色的表现,但它也存在着很大的局限性。神经网络要求输入大小是固定的,这对将深度神经网络算法应用于美学评估提出了特别的挑战。为了满足输入大小的要求,输入图像需要在输入到神经网络之前进行裁剪,缩放或填充。这些转换往往会损害原始图像的美感。裁剪会对图像构图产生负面影响,例如将原本遵循三分法的构图好的照片变成构图不好的照片;缩放会使图片中的显著对象变形;填充加均匀缩放缩小了原始图像分辨率并损害了重要对象的细节清晰度,填充还会引入原始图像和填充区域之间的人为边界,这可能会混淆神经网络,从而损害网络学习良好判别特征的能力。
2.2.2 决策阶段
决策阶段是将提取到的图像美学特征训练一个分类器或者回归模型,来进行分类或回归。训练到的模型可以把图像区分为高美学质量图像和低美学质量图像,也可以给图像一个美学质量得分。常用的方法有朴素贝叶斯分类器,支持向量机和深度分类器等。将提取的美学特征与评分值形成映射,然后利用这个映射关系做决策。
2.3 研究方法
在这里我们对传统方法做简单介绍,然后重点介绍一下近些年比较热门的深度学习方法。
2.3.1 传统方法
图像质量评估的传统方法是人工设计特征提取器,这需要大量的工程技术和领域专业知识。研究人员最先用全局特征来表示图像的美学特征。Datta等[6]和Ke等[5]的工作是首先将图像的审美理解转化为二元分类问题。Datta等[6]结合了低级特征和高级特征,这些特征通常用于图像检索,并训练SVM分类器用于图像美学质量的二值分类。Ke等人[5]提出了全局边缘分布,颜色分布,色调计数和对比度和亮度指标来表示图像,然后基于这些特征训练朴素贝叶斯分类器。Tong [15]的通过将全局低级简单特征(模糊性,对比度,鲜明度和显着性)结合起来,以便对专业摄影师拍摄的照片和普通快照进行分类。这些开创性的工作都是首次尝试使用手工设计的特征对图像的全局美学方面进行计算建模。
2.3.2 深度学习方法
从大量数据中学习图像特征已经在识别,定位,检索和跟踪等任务上表现出越来越高的性能,超越了传统手工设计特征的能力[16]。自从Krizhevsky等[16]采用卷积神经网络(CNN)进行图像分类工作开始,越来越多的研究者开始通过深度学习方法学习图像表示。
通过查阅文献发现,目前研究点主要集中在三方面:(1)在网络输入大小受限制的情况下,如何设计网络架构及网络输入以达到同时保留图像的全局信息和局部细节;(2)如何利用图像的风格/语义信息,或者如何对不同内容的图片选择合适的美学质量评价模型;(3)图像的美学质量得分以何种形式给出,比如二分类、回归、排序等。
PAPID
Lu等人的RAPID模型[9]可以被认为是用美学数据训练卷积神经网络的第一次尝试。他们使用类似AlexNet的架构,其中最后一个全连接层输出2维概率进行审美二元分类。本文对单路深度卷积神经网络方法进行了系统评价,并采用不同类型的输入进行美学质量分类;另外本文提出了双路深度卷积神经网络架构,以共同学习来自全局图像和局部图像特征。性能最好的模型是通过将全局和局部CNN堆叠在一起形成双列CNN(DCNN),其中来自每列的特征表示(倒数第二层fc7输出)在fc8层(分类层)之前级联。此外,通过使用style-column 或者 semantic-column CNN合并图像风格信息来进一步提高网络的表现。然后,将style-column CNN用作第三个输入列,形成具有style/semantic信息(SDCNN)的三路CNN。其双路CNN如下图所示,全局视图包括:中心裁剪,变形和填充。局部视图通过随机裁剪原始高分辨率图像得到。
本文比较了不同层组合和输入的单路CNN(SCNN)在审美质量分类任务的性能。下表给出了七种不同的体系结构及其总体精度。
将网络结构固定为Arch 1,本文还比较了四种输入下SCNN的性能。
双路CNN性能如下表所示。
DMA-Net
DMA-net在[10]中提出,本文认为,之前的深度卷积神经网络大多是从每幅图像中提取出一个patch作为训练样本。然而,一个patch并不能很好地代表整个图像,这可能会导致在训练过程中的歧义。本文提出了一个深度多patch聚合网络训练方法,它允许使用从一个图像生成的多个patch来训练模型。其网络结构如下图所示。
它包含两个主要部分:一组CNN,用于从多个输入patch中提取特征;以及一个无序的聚合结构,它组合来自CNN的输出特征。为了组合来自一个输入图像的采样图像块的多个特征输出,本文设计了统计聚集结构(最小,最大,中值和平均)从无序采样图像块中聚集特征。另一种聚合结构是基于排序设计的。两种聚合方法结构如下图。
下面的结果证实了一个想法,即多个patch上的训练网络比单个patch上的网络训练产生更好的预测性能。
AADB
Kong等[11]提出通过图像对排序以及图像属性和内容信息来学习美学特征。作者认为,自动生成照片美学排序对实际应用程序是很有帮助的。然而,以前的图像美学分析方法主要集中在粗糙的,二元的将图像分类为高或低审美类别。本文建议用深度卷积神经网络来对照片美学进行排序,在照片美学中,照片美学的相对排名可以直接在损失函数中建模。
为了训练和分析这个模型,构建了一个新的美学和属性数据库(AADB),这个数据库包含由多个评价者给每个图像分配的美学分数和有意义的属性。评价者身份也被记录在图像中。
具体来说,采用以图像对为输入的Siamese架构,其中Siamese架构的两个基础网络都采用AlexNet(去除AlexNet的1000类分类层fc8)。在第一阶段,基础网络在美学数据上预训练并进行微调,期间使用欧几里得损失回归层。之后,Siamese网络对每个采样图像对的损失进行排序。收敛后,微调的基础网络被用作初步特征提取器。
在第二阶段,将属性预测分支添加到基础网络以预测图像属性信息,然后通过结合评分的欧几里得损失、属性分类损失和排名损失,使用多任务方式继续对基础网络进行微调。
在第三阶段,另一个内容分类分支被添加到基础网络以预测预定义的一组类别标签。收敛时,内容分类预测的softmax输出作为加权向量,用于加权每个特征分支(美学分支,属性分支和内容分支)产生的分数。
在最后阶段,将带有额外分支的基础网络与固定的内容分类分支一起进行微调。实验结果表明,通过考虑属性和类别内容信息来学习美学特征是非常有效的。
MNA
神经网络一般采用固定尺寸输入。为了适应这种需求,输入图像需要通过裁剪,缩放或填充进行转换,这往往会损坏图像的构图,降低图像分辨率,或导致图像失真,从而损害原始图像的美感。本文提出了一个composition-preserving的方法,它直接从原始输入图像中学习美学特征,而不需要任何图像转换。具体来说,该方法在常规的卷积层和池化层之上增加了一个自适应的空间池化层来直接处理原始大小和长宽比的输入图像。为了能够进行多尺度的特征提取,提出了Multi-Net Adaptive Spatial Pooling ConvNet架构,该架构由多个具有不同自适应空间池化大小的子网络组成,另外,还利用基于场景的聚合层来有效地结合多个子网络的预测结果。网络结构如下图。
该方法与其他方法性能比较如下表所示。[29]为AVA,[24]为RAPID,[26]为DMA-Net。
A-Lamp
本中[21]提出了一种A-Lamp CNN架构来同时学习细粒度和整体布局。其网络输入如下图右侧所示。其中自适应选择的图像块来保留图像的细粒度,属性图用来保留图像的整体布局。
其网络结构如下图。
与DMA-Net相比,这个方案有两个主要的创新。首先,提出了一个自适应的多patch选择策略,而不是随机的修剪。自适应多patch选择的核心思想是更有效地最大化输入信息。通过专门挑选对图像美学影响较大的patch来实现这一目标。其次,与只专注于细粒度细节的DMA-Net不同,A-Lamp CNN通过属性图的构建整合了整体布局。使用图形节点来表示图像中的对象和全局场景。每个对象(注释)都使用对象特定的局部属性来描述,而整个场景则用全局属性来表示。局部和全局属性的组合可以有效地捕捉图像的布局。实验结果如下表。
NIMA
谷歌的研究团队在[20]这篇论文中提出了一种深度CNN,能够从直接观感(技术角度)与吸引程度(美学角度)预测人类对图像评估意见的分布。之前的方法都是将图像美学质量进行二分类或者对美学评分进行回归。这忽略了一个事实,即训练数据中的每个图像都与人类评分的直方图相关联,而非简单的分类。人类评价直方图是评价图像整体质量的指标。NIMA模型不是简单地将图像分为高或低质量,或者进行回归得到平均分,而是对任意给定的图像产出评级分布——分数从1到10,NIMA计算出各个分数的可能性。这也与训练数据的来源相一致。与其他方法相比,这种方法更直接地揭示了训练数据是如何被捕获的,更能呈现对于人类偏好的更好预测。论文使用的基本网络结构如下图所示。分类网络的最后一层被全连接层取代,以输出10类质量分数。
性能如下表。
其它
Peng等[17]提出针对8种不同的抽象任务(情感分类,艺术家分类,艺术风格分类,美学分类,时尚风格分类,建筑风格分类,记忆性预测和趣味性预测),对AlexNet-like架构的CNN进行训练。特别是,美学分类CNN的最后一层被修改,以输出二维 softmax概率。使用美学数据从头开始训练CNN,并且使用倒数第二层(fc7)输出作为特征表示。为了进一步分析从其他任务中学到的特征的有效性,Peng等人分析了不同的预训练和微调策略,并评估了来自8个CNN的级联fc7特征的不同组合的性能。
Wang等[18]提出了一种从AlexNet架构修改的CNN。具体来说,AlexNet的conv5层被一组7个卷积层(相对于不同的场景类别)所代替,在进入完全连接的层之前,它们以平均汇聚的方式平行堆叠,全连接层fc6和fc7被修改为输出512个特征图而不是4096个,以便更有效地进行参数学习。对于二元分类,1000级softmax输出更改为2级softmax(fc8)。
Zhang等[19]提出了一种用于学习美学特征表示的双列CNN。第一列(CNN1)将图像块作为输入,第二列(CNN2)将全局图像作为输入。在给定输入图像的情况下,不是随机采样图像块,而是使用弱监督学习算法将从图像标签学习的一组D个文本属性投影到对应的图像区域。然后这些图像区域作为CNN1的输入。
03
挑战与展望
美学的主观性决定了图像美学质量评价是一个非常具有挑战性的任务。到目前为止,在图像美学评估方面涌现出了很多具有竞争力的模型,但是这个领域的研究状况还远未达到饱和。其中如何提取和构造有效的图像美学特征是其中最大的难点。人工设计的美学特征很难被量化,同时也很难全面。深度学习方法具有强大的自动特征学习能力,这使得人们不需要有丰富的图像美学知识和摄影经验就可以提取图像美学特征。深度学习因而成为现阶段图像美学质量评价的主流方法。
深度卷积神经网络在提取图像美学特征方面最大的局限性是其要求输入图像大小是固定的,而输入图像需要在输入到神经网络之前进行裁剪、缩放或填充等操作会破坏图像原有的构图,从而可能损害图像的原始美感,如何同时保留图像的全局信息和局部信息是一个主要挑战。
将深度学习方法应用于图像美学质量评价面临的挑战还包括图像美学真值标签的模糊性以及如何从有限的辅助信息中学习特定类别的图像美学。图像美学评估需要具有更丰富注释的、规模更大的数据库,其中每个图像最好由具有不同背景的、数量更多的用户标记。这样一个庞大而又多样化的数据集将有大大推动未来图像美学质量评价模型的学习。
更多,欢迎到我的知乎专栏去投稿与交流。
参考文献:
[1] Joshi, Dhiraj, et al. "Aesthetics and Emotions in Images." IEEE Signal Processing Magazine 28.5 (2011): 94-115.
[2] Luo, Wei, Xiaogang Wang, and Xiaoou Tang. "Content-based photo quality assessment." international conference on computer vision (2011): 2206-2213.
[3] Tang, Xiaoou, Wei Luo, and Xiaogang Wang. "Content-Based Photo Quality Assessment." IEEE Transactions on Multimedia 15.8 (2013): 1930-1943.
[4] Murray, Naila, Luca Marchesotti, and Florent Perronnin. "AVA: A large-scale database for aesthetic visual analysis." computer vision and pattern recognition (2012): 2408-2415.
[5] Ke, Yan, Xiaoou Tang, and Feng Jing. "The Design of High-Level Features for Photo Quality Assessment." computer vision and pattern recognition (2006): 419-426.5
[6] Datta, Ritendra, Jia Li, and James Ze Wang. "Studying aesthetics in photographic images using a computational approach." european conference on computer vision (2006): 288-301.
[7] Luo, Yiwen, and Xiaoou Tang. "Photo and Video Quality Evaluation: Focusing on the Subject." european conference on computer vision (2008): 386-399.
[8] Marchesotti, Luca, et al. "Assessing the aesthetic quality of photographs using generic image descriptors." international conference on computer vision (2011): 1784-1791.
[9] Lu, Xin, et al. "RAPID: Rating Pictorial Aesthetics using Deep Learning." acm multimedia (2014): 457-466.
[10] Lu, Xin, et al. "Deep Multi-patch Aggregation Network for Image Style, Aesthetics, and Quality Estimation." international conference on computer vision (2015): 990-998.
[11] Kong, Shu, et al. "Photo Aesthetics Ranking Network with Attributes and Content Adaptation." european conference on computer vision (2016): 662-679.
[12] Lu, Xin, et al. "Rating Image Aesthetics Using Deep Learning." IEEE Transactions on Multimedia 17.11 (2015): 2021-2034.
[13] Wang, Zhangyang, et al. "Brain-Inspired Deep Networks for Image Aesthetics Assessment." arXiv: Computer Vision and Pattern Recognition (2016).
[14] Y. Kao, K. Huang, and S. Maybank, “Hierarchical aesthetic quality assessment using deep convolutional neural networks,” Signal Processing: Image Communication (2016).
[15] Tong, Hanghang, et al. "Classification of Digital Photos Taken by Photographers or Home Users." pacific rim conference on multimedia (2004): 198-205.
[16] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "ImageNet Classification with Deep Convolutional Neural Networks." neural information processing systems (2012): 1097-1105
[17] Peng, Kuanchuan, and Tsuhan Chen. "Toward correlating and solving abstract tasks using convolutional neural networks." workshop on applications of computer vision (2016): 1-9.
[18] W. Wang, M. Zhao, L. Wang, J. Huang, C. Cai, and X. Xu, “A multi-scene deep learning model for image aesthetic evaluation,” Signal Processing: Image Communication (2016)
[19] Zhang, L.. "Describing Human Aesthetic Perception by Deeply-learned Attributes from Flickr." arXiv: Computer Vision and Pattern Recognition (2016).
[20] Talebi, Hossein, and P. Milanfar. "NIMA: Neural Image Assessment." (2017).
[21] Ma, Shuang, J. Liu, and C. W. Chen. "A-Lamp: Adaptive Layout-Aware Multi-Patch Deep Convolutional Neural Network for Photo Aesthetic Assessment." (2017):722-731.
[22] Deng, Yubin, Chen Change Loy, and Xiaoou Tang. "Image Aesthetic Assessment: An experimental survey." IEEE Signal Processing Magazine 34.4 (2017): 80-106.