10年内人工智能计算机将能够读取你大脑中的图像
出品:放牛班的秘密花园
来源:Medium
编译:Sail2008
责任编辑:Sunnisky
潜在应用惊人,同时也令人担忧。
我有和照片一样逼真的记忆力,还拥有时间-空间关系的通感。这意味着我能以具有真实感的细节想象我去过的几乎任何地方,还可以在头脑中想象实际上并不存在的地方。
能够预先想象一张特定照片对我作为摄影师的职业生涯很有帮助。我很乐意与他人分享脑海中的这些图像,但有个问题:我不擅长绘画。我能以真实的细节想象巴黎圣母院,或我的第一个公寓的内部情况,但如果我拿起一支笔,试图画出我在脑海中所看到的东西,结果它看起来总像是一个两岁孩子的信笔涂鸦。
因此,当得知京都大学研究人员开发的一个人工智能系统有某种非凡本事时,我感到很兴奋。凭借深度学习和生成性网络的突破,它能读取人们头脑中的图像,并且以高达99%的准确率将其转换成数码照片。
图片来源:京都大学
该系统适用于人们眼前看到的和想象的图像。图像目前的分辨率较低,受试者需要待在核磁共振仪(MRI)中系统才能工作。但它指出了一种惊人的可能性,一种我从未期待在我有生之年能看到的可能性——随着科技的进步和大脑读取设备日益强大,计算机将能扫描我们的大脑,将大脑中的图像转换成可以保存和分享的真实照片。这在十年内就能实现。
京都大学研究人员在2018年进行实验,并于2019年在《公共科学图书馆·计算生物学》杂志(PLOS Computational Biology)上发表了实验结果。2018年发表在《科学杂志》(Science Magazine)上的一份报告详细介绍了该系统的工作原理。
研究人员让受试者进入功能性核磁共振扫描仪(fMRI)并记录其大脑活动。与传统MRI成像不同,fMRI成像测量大脑中的血液流动,使科学家能确定受试者执行任务时大脑的哪个区域最活跃。在记录受试者视觉系统发出的大脑信号的同时,研究人员向他们展示了数千个图像,每个图像显示多次。这形成一个巨大的大脑信号数据库,每组信号对应一个特定图像。
研究人员随后将所有这些数据输入深度神经网络(DNN),训练该网络生成图像。神经网络是极好的模式探测器,对于展示给受试者的每张照片,研究人员都让神经网络尝试生成与所观察到的大脑活动模式相匹配的图像,并将其输出信号优化了200多倍。最终系统能接收显示受试者大脑活动的fMRI成像数据,并根据它认为每个受试者看到的东西绘制图像。
接着研究人员增加了一个变数:他们将DNN的输出数据交给一个已经训练过的生成性网络。这类相对较新的网络是过去十年人工智能领域最令人兴奋的进展之一。
这些专门的神经网络接收基本输入数据并生成极为逼真的全新照片和视频。生成性网络是深度伪造(deepfake)、人造人和许多Snapchat滤镜背后的技术。在这种情况下,研究人员使用生成性网络对从受试者大脑中读取的图像进行规范化处理,使它们更像照片。
图片来源:京都大学
研究人员的最终系统接收受试者的大脑活动数据,用DNN将其转换成粗糙的照片,然后使用生成性网络将这些照片修饰成更逼真的东西。为了测试系统输出,研究人员将它生成的图像展示给一组人类评委。研究人员还向评委展示了一系列可能的输入图像,让他们将从受试者大脑中读取的图像与最相似的输入图像进行匹配。
在99%以上的时间里,评委都将系统生成的输出图像与受试者实际观看的输入图像匹配成功。这是个令人震惊的结果:仅凭大脑信号和人工智能,研究人员就能很好地重建受试者大脑中的图像,中立的人类评委在几乎100%的时间里都能将它们与真实世界的图像成功匹配。
你可以自行判断对比结果。下图中的第一排图像是展示给实验对象的原始照片,第二排是根据其大脑信号重建的图像。它们远不算完美,但绝对可识别。
图片来源:京都大学
研究人员随后提高了要求。他们不是在受试者观看图像时读取他们的大脑,而是让他们想象之前看过并记在大脑中的图像。这项任务的脑部扫描再次生成了可用图像。(这样做是有道理的,因为想象图像用到了许多与看到真实图像相同的大脑区域。)
图片来源:京都大学
仅凭想象构建的图像远不如受试者看着真实照片时构建的图像质量高。但当受试者被要求想象高对比度的简单形状、比如空白背景上的加号或圆形时,对其大脑进行扫描得到的重建图像与真实世界图像的匹配率为83.2%,远高于随机匹配。
读取虚构照片的挑战与研究人员的技术关系不大,而与受试者关系更大。在头脑中长时间保留图像很难,人们记忆的逼真程度也有很大差异。如果研究人员训练受试者想象特定图像——不管是利用从冥想获得的技巧,还是和我一样利用通感(他们通常有非常生动的心理意象,专业术语是超幻觉),他们可能会得到更好的结果。
目前由实验对象的神经信号获得的图像相对粗糙,但数码照片刚问世时也很粗糙。研究人员的结果证明,从人的大脑中读取图像是可能的。既然谜底已揭开,那么有很多方法能快速改进这项技术。
首先,输入数据的分辨率可以大大提高。研究人员使用的fMRI成像技术实现了大约两毫米的空间分辨率。挺不错,但这仍然意味着研究人员要将大约10万个神经元的反应聚集到他们测量的每个数据点上。类似埃隆·马斯克的Neuralink实验设备的大脑植入物有望读取单个神经元的信息,分辨率比fMRI成像高出几个数量级。
这种超高分辨率目前需要侵入性大脑植入手术才能实现。不过,随着深度神经网络的改进,研究人员将能通过脑电图等非侵入性、易于佩戴的脑机接口获得相似数据。目前脑电图具有厘米级分辨率,但新的光学技术对此作了改进,将脑电图与超高分辨率的神经网络相结合,显著提高了其有效分辨率。
随着脑电图和深度网络的改进,软件能通过安装在用户头上的非侵入性消费设备读取大脑图像,同时还能获得比今天的fMRI成像更好的分辨率。更高的分辨率能对受试者的大脑进行更精确的观察,使计算机更容易重建其大脑图像。
然而最有前途的进展并不在输入方面,而在生成性网络方面,研究人员用它来解释大脑数据,并将其转化为实际图片。如今最好的生成性网络非常强大,它们能读取非常稀疏的输入数据并生成逼真的图像。例如,OpenAI的Dall-E网络能接受“一把牛油果形状的扶手椅”这样的书面提示,再创建一张看似出自人类设计师之手的扶手椅的照片。
图片来源: OpenAI
如果能训练Dall-E这类网络用大脑数据而非文本作为输入数据,那么它就可能获得哪怕是最模糊的大脑激活模式,并确定人们脑海中所持有的确切心理图像。这样做需要捕获大量训练数据——让受试者想象数百万张不同的照片,同时记录其大脑信号以供网络分析。如果能够完成这种数据采集,生成性网络继续改进,那么可以想象,十年之内,一种非侵入性的消费级脑机接口就能从你的大脑中精确地读取图像。
真是这样的话,其潜在影响将是巨大的。艺术和设计领域将发生显著变化。比如你能想象一个完美厨房或app的完美用户界面,然后用电脑把你的创意转换成逼真的照片。你可以把照片交给建筑师或开发商,让他们按照你想象的精确规格建造你的梦想空间。
摄影师可能不再需要相机了——我们可以简单地在脑海中拍下风景“照片”,然后在闲暇时从大脑中将其下载。产品设计师可以在头脑中创建新设备的模型,用计算机采集数据,再用3D打印机将其变成实际模型。导演可以想象一个电影场景,然后根据大脑图像创建故事脚本,甚至可以想象和拍摄整部动画电影。
图片来源:京都大学
这种技术还有打击犯罪的极大好处。想象这样一种情况:受害者能回忆起自己的经历,并将记忆变成真实图像,就可以借助这些图像将犯罪者绳之以法。
也有许多令人不安的潜在军事应用。比如在审讯中使用这种技术,在未经囚犯同意的情况下将敌方特工的面孔从其大脑中提取出来。或者受情报机构派遣的间谍伪装成游客或承包商步行穿过某个设施,然后从其大脑中下载该设施的图像,利用它们来创建详细的平面图,以便更好地引导军事打击。
在个人层面上,用于读取大脑图像的设备显然涉及隐私和安全问题。如果这项技术与Neuralink设备等永远在线的大脑植入物相结合,这可能才是最令人担忧的事情,因为该设备可以在你不知情的情况下读取你大脑中的图像。更加笨拙的技术实现反而可能更安全——如果你必须戴上一顶特殊的帽子(或进入fMRI扫描仪)才能读取你的大脑,那么当你的记忆正在被记录时,至少这是显而易见的。
人们仍然可以想象大脑读取器带来的尴尬。假设你是一个实验对象,被要求想象某种无害的东西比如一款新型手机,而不是某种令人尴尬的东西。白熊效应表明,你越是努力不去想象某样东西,它就越有可能跳进你的大脑里。
研究人员在Github上发布了系统代码,如果你有一台价值500万美元的fMRI扫描仪,现在就能开始读取大脑了。否则,要想亲自体验读心术,你就不得不等到有人给强大的生成性网络配上消费级大脑接口了。