首页 > 聚焦 > >正文

时尚教皇刷屏，载入史册的 AI 假图事件，我们如何在狂飙的 AI 中幸存

来源：爱范儿2023-03-28 20:07:12

悬疑英剧《真相捕捉》里，情报机关为了给罪犯定罪，伪造了监控录像。

他们认为，伪造监控录像，只是将窃听材料等非法证据，「重演」为合法证据，事情的确发生了，罪犯的确犯罪了。

(相关资料图)

但是谁也不知道，使用技术的人会不会越界。毕竟，从移花接木到无中生有，从有的放矢到肆意伪造，只有人性的一步之遥。

当 AI 制图一日千里，这样的世界可能离我们并不远。

特朗普、教皇争相刷屏，全靠 AI 鬼斧神工

上周，几十张特朗普被捕的照片火爆 Twitter，它们记录了特朗普锒铛入狱的全部过程，从西装革履地走出大楼时被按在地上，到穿着囚服在铁丝网边思考人生。

不过，这些只是 AI 生成的图片。

始作俑者 Eliot Higgins 的账号被关小黑屋（现在又恢复了正常），「被捕（arrested）」这个词也被平台封了。

周末，又轮到 Twitter@skyferrori，让教皇方济各穿着巴黎世家风格的羽绒服出场。

有人评价这是说唱风、DJ 范，一副要发专辑的架势。

这条推文目前浏览 2600 多万次，转发 3 万多次，骗过了很多人的眼睛。「AI 生成图片」的说明，后来才补充在图片下方。

有 Twitter 网友认为，这起事件是第一个真正大规模的 AI 虚假信息案例，可以载入史册。

更多的模仿随之而来。

特朗普下乡再就业，在街头拉黄包车；教皇换上羽绒服，奔赴星辰大海；异形体验生活，上了一天的班然后深夜买醉……

这些名人在平行世界的脑洞图片，多半出自 AI 绘画工具 MidJourney V5 版本。

V5 版本模型能够生成比 V4 版本更高质量、更真实的图像，并且有更多的定制选项和更快的渲染速度，是目前最高水平的 AI 绘图工具之一。

最直观的一点是，它基本上解决了之前 AI 画不好手指的问题，人类又失去了一个辨别真假的办法。（顺带一提， V1 版本发布于 2022 年 7 月，可见迭代速度之快）

输入的 prompt（提示词）也并不难，某个名人的名字，再加动作、地点等，即可以成图。

以上也有不少图片属于「一眼假」，接下来还有更让人眼花缭乱的进阶版本。

上周，这张用 Midjourney 生成的中国情侣照走红网络。

几天前，Reddit 网友发了一组新闻图片，记录了 2001 年北美西海岸卡斯卡迪亚发生的 9.1 级地震和海啸事件。

你可以看见报道这场灾难的各个角度：现场房屋毁坏、巨浪奔腾，滞留机场的人们露出惊恐的表情，救援人员竭力从废墟里救出被困的幸存者，新闻记者赶到现场直播。

整组照片的色调、着装、场景，都有着世纪初的味道。其中有些看起来很「业余」，像是当地居民随手拍下来的，但往往这类照片会被看作珍贵的资料。

然而，这组图片也是用 Midjourney 生成的，灾难并不存在。

类似地，网友 Arctic_Chilean 伪造了「2012 年 7 月美国太阳超级风暴和停电」事件，他觉得 MidJourney 善于捕捉 2010 年初的新闻镜头美学，在生成天际线和地标上的极光照片方面也表现出色，但无法生成城市断电的场景。

另一位网友 FinewithIX 用 AI 生成了 1969 年的登月花絮图片，模仿了当时颗粒感更强的胶片风格。

这种写实的新闻图片，没有特朗普、教皇鲜明的个人化特征，你反而更容易被迷了眼。

从 Deepfake 到 Cheapfake

打造「时尚教皇」的@skyferrori，在作品刷屏后接受了媒体采访。

他是来自芝加哥地区的一名 31 岁建筑工人，使用 Midjourney 并没有什么目的，对教皇也没有什么恶意，只是为了好玩。

意外的走红，让他后知后觉地明白了 AI 的影响之广。别有用心的人甚至拿着这些图片指责天主教会奢侈浪费。

我以前没有想过这点。人们正在接受它，认为它是真实的而不质疑它，这绝对是可怕的。

目前的大多数玩家也无非是找个乐子，但就像《真相捕捉》里探讨的伪造证据和程序正义，我们不知道边界何时被越过，以及终点在哪里。

在多数情况下，色情、政治和谣言总是先行。一位女性在地铁上的照片被 AI 一键脱衣，登上了今天的微博热搜，作恶者却隐藏在 AI 身后。当时间和地点都对得上，普通人又如何为自己分辨。

语音克隆的发展速度之快，同样令人胆战心惊。

骗子使用 AI 模仿对方家人的声音，打诈骗电话诓钱，此类案件已经在美国发生了好几起。

语音克隆这项技术并不稀奇，问题在于门槛越来越低。就像加州大学伯克利分校教授 Hany Farid 所说：

两年前，甚至一年前，克隆一个人的声音，需要大量的音频。现在，如果你有一个 Facebook 页面，或者如果你录制了 TikTok 并且你的声音持续了 30 秒，人们就可以克隆你的声音。

它们甚至越来越便宜，比如 ElevenLabs 的语音克隆技术 2022 年才问世，相关服务的费用仅为每月 5 美元。

有了语音，有了图片，完全用 AI 生成视频也是有可能的。有人用 ChatGPT 生成讲话内容，用 Midjourney 生成虚拟形象，用 ElevenLabs 生成声音，用 D-ID 生成对口型的视频，做出了完整的短视频。

发现了吗？我们仍然可以去争论某张图片和某个视频的真假，但问题的核心在于它们的发展速度。

换脸的 Deepfake（深度伪造）有一定技术门槛，但现在如果你愿意花些时间上手 AI 软件，学习他人的提示词怎么写，最多再订阅一个 plus 会员，造假成本已经比之前要低。

然后，它们又广泛传播到 Twitter、Reddit、TikTok 等社交媒体。

有人称之为「Cheapfakes」（廉价伪造），考虑到制作成本和传播成本，倒也恰如其分。

The Verge 提出了一个观点：AI 曾只是一个功能，现在它逐步成为产品。

这和当年乔布斯在 Macintosh 电脑上安装鼠标和图形界面操作系统，在智能手机上接入多点触控屏幕有些类似，普通大众的使用门槛被解决，技术不再为少数精英所有，此后相关的服务才能够起飞。

过去我们常说无图无真相，但在不远的未来，有图也不是真相，有视频可能也不是真相，它们都证明不了任何问题了。

如何在技术的未来中幸存

在技术面前，意识和法律总是稍微滞后。已经出现的漏洞，还来得及弥补吗？

提供 AI 服务的公司自然要把守前线。

今年 1 月底，因为太多用户用语音克隆胡作非为，AI 语音工具 ElevenLabs 宣布引入新的保护措施，其中较为重要的 2 条是：

推出新的 AI 检测工具，验证某个音频剪辑是否使用他们的技术生成；

让某些功能只能付费使用，降低用户的匿名性，从而让他们「三思而后行」；

社交媒体也在想办法减少错误信息的传播。

TikTok 在上周宣布，所有展示真实场景的 Deepfakes 都必须被标记为虚假（fake）或更改（altered），并且公众人物的 Deepfakes 不得用于政治或商业背书。

其实，虚假图片、虚假语音、虚假视频存在良久，以前有过无数次的讨论与争锋，然而到今天，它们才成为了一个真正的问题。

2020 年，Adobe 曾经发布过「内容真实性计划」（CAI），希望打造一个系统，将来源和详细信息永久附加到图像上，并带有加密签名，现在仍在开发中。

只要有人下载、截屏、编辑图像，CAI 元数据标签都将表明它是经过处理的。

这听起来非常有用，也可以沿用在 AI 作品上。

但 Adobe 也指出，需要大量硬件和软件支持，才能使系统有效运行，包括支持添加标签的相机、记录处理细节的照片编辑工具、显示标签的社交媒体等等。

这几乎涉及到从制造到传播的每一个环节，可想而知它的困难程度。

现在，AI 造假的困境也是类似的，就像从前无数次讨论 Deepfake 一样，技术公司、媒体机构乃至每个个体，都应该承担一份责任，但这恰恰是难以达到的理想情况。

在「时尚教皇」出圈后，Twitter 粉丝近 1300 万的模特 Chrissy Teigen 感叹：

我以为教皇的羽绒服是真的，没有多想。我不可能在技术的未来中幸存下来。

AI 的发展速度，让公众意识和法律法规都难以望其项背。只能说，当我们看到某张图片时，最好不要默认它是真实的。

标签：