教学参考-24

教学目标

随着深度学习的进步，深度神经网络生成的图片越来越逼真，几乎到了以假乱真的地步
深度生成模型之所以具有如此强大的能力，是因为它可以通过层次学习发现图片背后的生成因子。有了这些因子，再重新组合起来，就可生成逼真的人脸图像了。
换句话说，深度生成模型之所以如此强大，一个要有本原因是它对图片的生成过程有了深入“理解”，学会了图片应遵守的原则（如连续性，光线照射）等。而这些知识的取得是通过大量图片学习得到的。

换脸技术人们已经研究了很多年。传统方法多采用图形学3D重建技术对面部部件进行变换和渲染。这些方法的问题是生成的照片修改痕迹较重，很容易被识别出来。
Deepfakes是一种基于深度学习的换脸技术，它采用自编码器结构，但对这一结构进行了特别设计：所有人共享一个编码器，但每个人拥有各自的解码器，如右上图所示。由于编码空间有限，这一结构将鼓励编码器提取所有人的共同特征，如表情变化，口唇运动等，而那些个性化特征，如肤色，相貌等，则由每个人各自的解码器来处理。
模型训练完成后，将A的一张图片输入到共享的编码器，再通过另一个人B对应的解码器进行解码，就可以生成一张同样表情的B的人脸照片了。
因此，Deepfakes 的基础还是在于对人脸图像的分解，将内容（谁的人脸）和风格（表情动作）分离。编码器用来得到风格变量，解码器的参数用来表示内容（注意，一个人一个解码器），将风格变量和某个人的内容变量组合在一起，就完成了换脸。
注意，上面所展示的只是基础模型。事实上，所有人也可以共享一个解码器，只需要一个目标人脸的代表向量即可。这种方法不需要对每个目标人单独训练模型，只需目标人的一张照片即可实现换脸。

不论是无中生有的照片合成，还是Deepfakes的换脸，当前深度生成网络所生成的图片肉眼已经很难分辨了。然而，这也不是说造假图片毫无痕迹可查。如果仔细查看细节，可以看到AI生成的图片在细节方面还是有很明显缺失的。
研究者抓住这些细节差异，提出了若干虚假图片检测方法。例如，美国Buffalo大学研究者推出的基于双眼特性的检测工具，对GAN生成的人脸图片的检出率达到94%。

AI生成的虚拟视频资料在影视制作、娱乐、教育等领域有广泛应用，同时也带来了极大的社会风险。特别是以Deepfakes为代表的换脸技术，可能严重侵犯公民的人身权利，带来道德和法律风险。更加严重的是，目前网上有众多Deepfakes的开源代码，虚假图片和视频的制作成本大大降低。
目前，不仅换脸不成问题，换表情，换声音都成为现实，其逼真程度已经超出了肉眼的辨别能力，这是AI迄今为止给我们带来的最大的麻烦之一。
人们已经意识到这一风险并开始采取行动。亚马逊和微软等发起了Deepfakes检测竞赛，美国国防部也启动了虚假视频检测项目。
然而，道高一尺，魔高一丈，伪造和鉴伪之间斗争目前还在胶着中。