一幅画是不是真迹?AI比专家看得更明白(上)
神译局
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等新领域,重点介绍国外的新技术、新观点、新风向。
编者按:2011年,马克·安德森写了一篇著名的文章:软件正在吞噬世界。如今,全球正被其中的一种特殊的软件所吞噬:深度学习。这种软件使机器能够处理一些在几年前还被认为是计算机无法处理的任务,包括驾驶汽车和医疗诊断。我们准备在这个名单上再添一项惊人的壮举——识别伪造画作。计算机能够帮助专家鉴定艺术品,这是斯蒂芬·弗兰克和安德莉亚·弗兰克夫妇努力的结果。他们开发了一种卷积神经网络,可以评估一幅画,甚至是一幅画的一部分,是由目标画家完成的概率。他们最近用这种神经网络来评估列奥纳多·达·芬奇的《救世主》的真假。2017年,这幅画在佳士得拍卖会上以4.5亿美元的价格成交,成为有史以来最昂贵的画作。
要对达芬奇的画作进行分析,首先需要把高清的原画分割成一片片相互重叠的切片区域,并且这些切片需要含有足够的有效信息来进行分析,正如图中所显示的。之后作者会利用他的系统来对这些切片进行学习和分析。
2017年11月15日,英国佳士得拍卖行的香槟瓶塞砰砰作响,震耳欲聋。一幅名为《救世主》(Salvator Mundi)的耶 稣肖像在纽约佳士得拍卖行以4.503亿美元的价格售出,成为迄今为止成交价最高的画作。
但是,即使在锤子落下的时候,仍有很多人在质疑这幅画真的是文艺复兴时期杰出大师列奥纳多·达·芬奇(Leonardo da Vinci)的作品吗?50多年前,一位来自路易斯安那州的男子在伦敦仅花了45英镑就买下了这幅画。而从1909年到《救世主》重见天日之前的这段时间,根本就没有出现过达芬奇的真迹。
一些持怀疑态度的专家看了这幅画的历史销售和转让记录以后,开始质疑这幅作品的来源,他们指出,这幅严重受损的画作进行过大规模的修复。还有一些人觉得这幅画出自达芬奇的徒弟而非达芬奇本人。
从专家们的唇枪舌战和一系列不完整的证据中,我们真的可以确定一件艺术品的真伪吗?先进的测量技术可以确定一幅画的年代、揭示暗藏的细节,但并不能直接确定其创作者。这项工作需要对风格和技术进行微妙的判断,所以似乎只有专家们才能胜任。但事实上,这项任务非常适合计算机分析,特别是神经网络这一擅长检查模式的计算机算法。用于分析图像的卷积神经网络(CNN)已经得到了很广泛的应用,比如人脸识别和自动驾驶。那么,为什么不用它们来鉴定艺术品呢?
作者将他的神经网络应用在了一副伦勃朗的画(上)、一幅曾经被认定是伦勃朗的画(中)和列奥纳多的《救世主》(下)这三幅画作上。图片上用类似热成像的显示方法显示了不同部分为真迹的概率,颜色越接近红色就越代表这些区域是算法认为的可能是由艺术家本人绘制的部分。图片来源:史蒂文和安德里亚·弗兰克
这是我在2018年问妻子安德莉亚 M. Frank的问题。她是一位专业的艺术策展人。虽然我职业生涯中的大部分时间都在做知识产权律师,但我对网络教育的痴迷程度最近达到了顶峰,并且还获得了哥伦比亚大学人工智能专业的学士学位。刚好安德莉亚最近正考虑从原来的工作退休,所以我们决定一起接受这个新的挑战。
我们从回顾用神经网络分析绘画的障碍开始,很快确定了其中最主要的几个。首先纯粹是尺寸问题:一幅高分辨率的绘画图像对于传统的CNN来说太大了,但是适合CNN大小的较小的图像可能缺乏支持鉴别所需要的信息。另一个障碍便是数据库。神经网络需要数千个训练样本,这远远超过即使是最高产的艺术家穷尽一生所能创作的画作数量。由于这些障碍的存在,电脑技术在解决画作真伪问题这方面的作用显得微乎其微。
尺寸问题并不是艺术图像所独有的,被病理学家用来检查癌症和其他病症的数字化活检切片也包含着大量像素。医学研究人员的解决办法是,他们将这些图像分解成更小的碎片,例如正方形的切片,以便于CNN处理。这样做还可以帮助解决数据库的问题,因为这样一来就可以从单个图像分割出大量训练样本,特别是当切片可以水平或垂直重叠的时候。当然,这些样本切片中有很多多余的信息,不过事实证明,拥有足够的样本数量才是最重要的,因为,在训练神经网络时,数量就是质量。
如果可以在艺术品鉴定中应用这一技术的话,那么接踵而至的问题就是决定应该用哪些图像来作为训练样本。《救世主》这幅作品中既有图像信息十分丰富的区域,也有缺乏足够视觉信息的背景区域,而这些缺乏信息的区域会给训练造成极大的困难。比如,如果由于达芬奇不在乎签名而导致签名信息的缺乏,或者有很多艺术家们都喜欢采用同样的渲染背景的方式,那么CNN将会被误导,这样一来,它划定真迹的能力就会受到影响。
我们需要一些标准来帮助我们识别有足够图像信息的样本,以及那些可以被电脑自动且一致地应用的样本。我认为信息理论或许能提供一个解决方案,或者至少为我们指明方向。每当我开始进行数学计算时,安德莉亚的眼睛就会变得呆滞,但这一领域的先驱Claude Shannon是一位独轮摩托车制造商,他制造的产品包括火焰喷射喇叭和火箭动力飞盘,所以,如果他都可以做到的话,我们应该也差不到哪里去。
信息理论的一个支柱就是熵的概念。当大多数人想到熵的时候,他们想到的是物体分裂成无序状态。Shannon却认为这是一种很有效率的通过电线传输信息的方式。信息包含的冗余越多,就越容易压缩,那么发送它所需的带宽也就越少。能够被高度压缩的信息具有低熵,而另一方面,高熵信息却无法被压缩,因为它们具有更多的独特性、更多的不可预测性和更多的无序性。
图片来源:Pexels
像文字一样,图像也携带信息,它们的熵同样表明了它们的复杂程度。一个全白(或全黑)的图像的熵为零,所以在这种情况下,记录大量的1或0是完全多余的。以及格纹,虽然视觉上格纹看起来比一条单独的对角线要复杂,但从可预测性的角度上来说,格纹其实并不复杂,这意味着它只多出来了一点点熵。不过当然,一幅静物画的熵要比黑白画和格纹大得多。
不过,认为熵就等同于图像中的信息量这一想法也是错误的。即使是非常小的图像也可能有很高的熵,所以,熵反映了图像信息的多样性。作为团队中数学最差的那个人,我突然想到,我们可以在努力消除背景和其他缺乏信息的区域时,排除掉那些低熵的部分。
我们从荷兰大师伦勃朗的肖像画开始,几个世纪以来,他的作品的归属问题一直很有争议。训练CNN识别伦勃朗真迹显然需要一个数据集,其中包括伦勃朗的一些画作和其他人的一些画作。但是,收集这些数据集也带来了一个难题。
如果我们随机挑选50幅伦勃朗的肖像画和50幅其他艺术家的肖像画,我们就可以训练出一套系统来区分伦勃朗和毕加索,而不是伦勃朗和他的学生以及崇拜者(更不用说那些伪造者了)。但是,如果我们的训练样本都集中于伦勃朗的真迹和仿制品中的话,CNN就会过度拟合。也就是说,它不能很好地概括其训练之外的内容。所以安德莉亚开始收集非伦勃朗作品的数据集,其中包括一些非常接近伦勃朗的作品,以及一些让人可以联想到伦勃朗但又容易与真品区分开来的作品。
然后我们还需要一些额外的选择。如果我们要把伦勃朗的画切成片,且只保留那些熵足够高的部分的话,那么我们的熵截断点应该是什么?我认为一片切片至少应该有和一幅完整图像一个数量级的熵,这样才能进行可靠的分类。实践证明我的想法是正确的,根据不同的作品,我们需要将熵阈值与画作的特征联系在一起。这是一个很难达到的标准,通常只有不到15%的切片符合标准。不过这个问题很好解决,我们可以增加相邻切片之间的重叠部分,以达到训练所需的切片数量。
这种基于熵进行选择的结果从直观上来看是有意义的。确实,那些真迹是人为鉴定过的,通常情况下,电脑会捕捉专家们在判断一幅画的作者时所依赖的特征。以《救世主》为例,选定的切片部分覆盖了耶 稣的脸、侧面卷发和手,这些全是学者们对这幅画的作者进行争论时的焦点。
接下来要考虑的是切片的大小。在标准硬件上运行的常用CNN可以轻松处理从100 × 100像素到600 × 600像素的图像。小一些的切片可以把分析限制在精细的细节上,而使用大的切片会有导致CNN过度拟合到训练数据上的风险。但最终只有通过反复训练和测试,我们才能为特定的图像确定最佳的切片大小。对于伦勃朗的肖像画,我们的系统使用450 × 450像素的切片效果最好,这大约是主体的脸的大小,所有的其他切片都会缩放到相同的分辨率。
我们还发现简单的CNN设计比更复杂(和更常见)的设计效果更好。所以我们决定使用只有五层的CNN。安德莉亚精心挑选的数据集包括76幅伦勃朗和非伦勃朗画作的图像,我们将这些图像以四种不同的方式组合成了51幅训练图像和25幅测试图像。这允许我们“交叉验证”结果,以确保跨数据集的一致性。我们的五层CNN学会了将伦勃朗与他的学生、模仿者和其他肖像画家区分开来,准确率超过90%。
受到这次成功的鼓舞,我们打趣地给勇敢的小CNN起了个名字叫“A-Eye”,并把它用在另一位荷兰天才画家文森特·梵高的风景画上。我们选择梵高是因为他的作品与伦勃朗的截然不同。梵高更在意情感而非考究,所以他的笔触大胆而富有表现力。这一次,我们的数据集包括了152幅梵高的和非梵高的画作,用四种不同的方式把他们分成了100幅训练图像和52幅测试图像。
A-Eye在梵高的作品中表现得很好,在我们的测试中再次表现了很高的准确性,但必须要用小得多的切片。表现最好的那一部分只有100 x 100的像素,大约只是一笔的大小。艺术家作品的“经典”尺度——也就是CNN对其进行准确分类的尺度——对不同艺术家来说是独特的,至少在肖像画和风景画等流派中如此。
译者:扣人心
本文来自翻译, 如若转载请注明出处。