陈根：深度合成，为什么变成深度伪造？ / 开普饭

文/陈根

技术盛行的时代里，人工智能让社会生活的一切都显得表观和直接，却让伪造走向深度和长远。

作为一种基于人工智能的人体图像合成技术，深度伪造的起初只是程序员用于自制搞笑的“换头”视频的简单想法。但是，两个深度学习的算法相互叠加，最终创造了一个复杂的系统。

人工智能的进步令这个复杂的系统用途也得以扩充。从特定用户实时匹配面部表情，并无缝切换生成换脸视频，到其可以模仿的对象不再被限制。不论是明星政客，还是任何普通人，都可以在深度伪造技术下达到“以假乱真”的程度。

在这些应用带来发展机遇的同时，其背后的安全隐患也开始被放大。随着深度伪造技术发展的愈发复杂，其制作却越来越简单。可以说，深度造假正带来一系列具有挑战性的政策、技术和法律问题。

人工智能重塑了人的认知，而人作为人工智能的开发者也将固有的偏见传递给了技术。更重要的是，人们对这一切似乎并无察觉。在“娱乐”的外衣下，即便察觉，也无计可施。

从深度合成到深度伪造

一开始，“深度伪造”并不叫“深度伪造”，而是作为一种人工智能合成内容技术而存在。而深度合成技术是人工智能发展到一定阶段的产物，源于人工智能系统生成对抗网络（GAN）的进步。

GAN由生成器和识别器两个相互竞争的系统组成。建立GAN的第一步是识别所需的输出，并为生成器创建一个培训数据集。一旦生成器开始创建可接受的输出内容，就可以将视频剪辑提供给识别器进行鉴别。如果鉴别出视频是假的，就会告诉生成器在创建下一个视频时需要修正的地方。

根据每次的“对抗”结果，生成器会调整其制作时使用到的参数，直到鉴别器无法辨别生成作品和真迹，以此将现有图像和视频组合并叠加到源图像上，终于生成合成视频。

典型的“深度合成”主要包括人脸替换、人脸再现、人脸合成以及语音合成四种形式。

人脸替换也被称为换脸，是指将某一个人的脸部图像（源人物）“缝合”到另外一个人的脸上（目标人物），从而覆盖目标人物的面部。

人脸再现则利用深度合成技术改变人的面部特征，包括目标对象的嘴部、眉毛、眼睛和头部的倾斜，从而操纵目标对象的脸部表情。人脸再现不同于人脸替换，前者侧重于改变某个人的脸部表情，从而让其看起来在说他们从未说过的话。

人脸合成可以创建全新的人脸图像，而这些随机生成的人脸图像很多都可以媲美真实的人脸图像，甚至代替一些真实肖像的使用，比如广告宣传、用户头像等。

语音合成涉及创建特定的声音模型，不仅可以将文字转化成声音，而且可以转化为接近真人语调和节奏的声音。加拿大的语音合成系统 RealTalk，就与以往基于语音输入学习人声的系统不同，它可以仅基于文本输入生成完美逼近真人的声音。

深度合成技术的走红，却是一场意外。2017年，美国新闻网站 Reddit的一个名为“deepfakes”的用户上传了经过数字化篡改的色情视频，即这些视频中的成人演员的脸被替换成了电影明星的脸。此后，Reddit网站成为了分享虚假色情视频的一个阵地。

尽管后来 Reddit网站上的 deepfake 论坛因为充斥着大量合成的色情视频而被关闭，但 deepfake背后的人工智能技术却引起了技术社区的广泛兴趣，开源方法和工具性的应用不断涌现，比如，Faceswap、FakeAPP、face2face等。

而从那时起，新闻媒体就开始使用“deepfake”一词来描述这种基于人工智能技术的合成视频内容。于是，基于“deepfake”技术的内容和“deepfake”的语境，深度伪造由此而生。

真实的消解，信任的崩坏

人工智能重塑人类的认知，而人类作为人工智能的开发者也将固有的偏见传递给了技术。技术并非中立，它复刻且放大了人类的偏好，反映并强化了潜藏的社会风险。潘多拉的魔盒一旦打开，将会带来意想不到的伤害和威力。

深度伪造出现前，视频换脸技术最早应用于电影领域，需要相对较高的技术和资金。而2017年以来，该技术在“GitHub”的开源软件涌现。其开发技术获取成本大大降低，并且能够被不具备专业知识的普通人利用并轻易制作。

制造视频并不需要很高的技巧，机器学习算法与面部映射软件相结合，伪造内容来劫持一个人的声音、面孔和身体等身份信息变得廉价而容易，普通大众一键便可制造想要的视频。

伪造视频等的泛滥，带来的第一个严重后果，就是对于信息的真实性形成的严峻挑战。自从摄影术、视频、射线扫描技术出现以来，视觉文本的客观性就在法律、新闻以及其他社会领域被慢慢建立起来，成为真相的存在，或者说，是建构真相的最有力证据。“眼见为实”成为这一认识论权威的最通俗表达。在这个意义上，视觉客观性产自一种特定的专业权威体制。

然而，深度造假的技术优势和游猎特征，使得这一专业权威体制遭遇前所未有的挑战。借助这一体制生产的视觉文本，深度造假者替换了不同乃至相反的文本内容和意涵，造成了文本的自我颠覆，也就从根本上颠覆了这一客观性或者真相的生产体制。

PS 发明后，有图不再有真相。而深度伪造技术的出现，则让视频也开始变得镜花水月了起来：人们普遍认为视频可以担当“实锤”，而现在这把实锤竟可凭空制造，对于本来就假消息满天飞的互联网来说，这无疑会造成进一步的信任崩坏。

深度伪造技术被运用在政治领域，其破坏政府和政治进程的稳定带来的伤害尤为长久和深刻。可以说，深度造假不仅是一种技术迷思和技术景观，而且是一个充满变动的权力场域。事实上，深度造假之所以被政治和社会领域所关注，恰恰是由于精确换脸对这些领域中真相的认识论的进一步瓦解，以及造成的有关传播失序的道德恐慌。

恶意的行为者伪造证据，助长了虚假指控和虚假叙述。比如，通过对候选人发表的原有言语进行微妙改变，使其品格、健康状况和心理健康受到质疑，而大多数观众却完全不知道其中的门道。

“深度伪造”技术还可用于创建全新的虚拟内容，包括有争议的发言或仇恨言论，目的是操纵政治分歧议题，甚至是煽动暴力。

此外，深度伪造的泛滥进一步增加侵犯肖像权和隐私权的可能，没人愿意自己的脸庞出现在莫名其妙的视频当中。深度伪造技术最初就是被应用于色情行业，如今，这一应用对肖像权和隐私的侵害随着深度伪造向着廉价造假转化仍然在放大。

于是，借助一些低价乃至免费的软件，消费者无需专业知识和技术能力，即可通过终端实现调整速度、摄像头效果、更换背景、实现换脸等操作。这在一定程度上成为了色情视频滥觞的源头。

比如，2019年出现的一键生成裸照软件DeepNude，只要输入一张完整的女性图片就可自动生成相应的裸照。受害者通常没有追索权，并且，照片上传之后难再删除。这种轻易生成的色情视频将很大程度上损害女性的工作前途、人际关系、名誉和心理健康，造成污名化女性、色情报复的恶果，使女性暴露在某种集体监视之中。

深度伪造软件收集的用户照片，以及眨眼、摇头等动态行为信息，都是用户不可更改的敏感信息，一旦被非法使用，后果不堪设想。2019 年 3 月份，《华尔街日报》报道，有犯罪分子使用深度伪造技术成功模仿了英国某能源公司在德国母公司 CEO 的声音，诈骗了220 000 欧元（约1 730 806人民币），其破坏性可见一斑。

关于真实的博弈

我们并不否认深度伪造技术为社会带来的更多可能性。

短期内，深度伪造技术已经作用于影视、娱乐和社交等诸多领域，它们或是被用于升级传统的音视频处理或后期技术，带来更好的影音体验，或是被用来进一步打破语言障碍，优化社交体验。

中长期来看，深度伪造技术既可以基于其深度仿真的特征，超越时空限制，加深人们与虚拟世界的交互，也可以基于其合成性，创造一些超越真实世界的“素材”，比如合成数据。

但在深度伪造带来的危机逼近的当前，回应深度伪造对社会真相的消解，弥补信任的崩坏，并对这项技术进行治理已经不可忽视。遗憾的是，迄今为止，人们在应对深度伪造技术方面的表现并不理想。

事实上，人们并非没有试图通过技术手段遏制深度造假的泛滥。2019年，斯坦福大学研究员Tom Van de Weghe联合计算机、新闻等行业的专家，成立了深度造假研究小组，以提升公众对这一现象的认知度，设计深度造假的识别应对方案。然而，技术发展速度往往高于破解速度。随着鉴别器在识别假视频方面做得越来越好，生成器在创建假视频方面也做得越来越好。

理论上，只要给GAN当前掌握的所有鉴证技术，它就能通过学习进行自我进化，规避鉴证监测。攻击会被防御反击，反过来又被更复杂的攻击所抵消。可以预见，未来，深度伪造与鉴别深度伪造将会在这种“道高一尺魔高一丈”的反复中博弈下去。

此外，迄今为止，立法都滞后于深度伪造技术的发展，并存在一定的灰色地带。深度伪造基于公开照片的生成，这令其很难真正被发现。由于所有的照片都是由人工智能系统从零开始创建，任何的照片都可以不受限地用于任何目的，而不用担心版权、分发权、侵权赔偿和版税的问题。因此，这也带来了深度伪造照片或视频的版权归属问题。

一旦被发现，谁又有权利删除数据？违法者或侵权者的数据是否拥有同样的权利？此外，当平台发现疑似深度伪造视频时，它是否能简单删除以规避责任，这种行为又是否会阻碍传播自由？

在注意力经济兴起，高度分裂的社会背景下，与深度伪造的博弈是一个有关真实的游戏。进入人工智能为技术基础的深度后真相时代，深度伪造进一步用超越人类识别力的技术，模糊了真与假的界限，并将真相开放为可加工的内容，供所有参与者使用。

在这个意义上，深度造假开启的是普通人参与视觉表达的新阶段。然而，这种表达方式还会结构性地受到平台权力的影响，也给社会带来了更大的挑战。因此，察觉风险，审慎回应，是我们做出努力的第一步。

陈根：深度合成，为什么变成深度伪造？

相关推荐