AI 换脸项目 ALAE 登顶 Github，AI 换脸又升级？

AfyyEj6.jpg!web

作者 | 马超

出品 | CSDN（ID：CSDNnews）

基于自编码技术的AI换脸项目ALAE成功登顶了Github趋势榜（https://github.com/podgorskiy/ALAE）：

mEBRVnB.png!web

相比于之前的人脸图像处理的项目，ALAE可谓是大BOSS的级别了，随便贴几张效果图大家来感受一下。

ERv6fiZ.png!web

不但图像分辨甩之前几代的换脸模型几条街，学习过程的可视化也更强：

2yIRNrz.png!web

截至笔者发稿时，ALAE有两个自编码器：一个是基于MLP编码器，另一个基于StyleGAN对抗神经网络的生成模型，也可以称之为StyleALAE。ALAE的作者们将这两种体系结构的结合。结果表明，StyleALAE在各方面的性能都优于上一代的StyleGAN，且在相同分辨率下还可以生成更真实的人脸重构信息。

笔者初步在GitHub上看了一下，由那个大名鼎鼎的换脸应用Deepfaks衍生的如faceswap，DeepFaceLab的开源项目数量不下十几个，其中以faceswap、Openfaceswap等开源项目为代码的换脸技术在GitHub上的更新与讨论十分热烈，推动了开源换脸技术的迭代速度。

以FaceApp为代表的项目虽然没有开源，但是它们提供了支持一键式操作的应用程序，极大地降低了换脸技术的使用门槛。

笔者在嘘！我看到了你 60 岁的样子！一文中回顾下AI换脸技术的发展历程：

Pix2Pix：AI换脸的祖师级模型

刚刚提到如deepfaks的换脸应用，是参考了Pix2Pix的思想。Pix2Pix是基于对抗神经网络GAN的模型，其目标是由图像的轮廓，还原回真实图像，目前读者可以到https://affinelayer.com/pixsrv/这个网站来感受一下，如何从随便画出的简笔画转换成真实的图像。

Ybi2iaV.png!web

后来N厂又提出了Pix2PixHD技术， Pix2PixHD 把之前由Pix2Pix生成的图像分辨率提高了很多。可以说PIX2PIX是后面这些AI换脸等技术的理论基础，正是凭借AI强大的联想及脑补能力使以上应用成为了可能。

CycleGAN：风云变色的模型

2017年，加州大学伯克利分校的教授提出了CycleGAN模型，CycleGAN使用循环一致性损失函数来实现训练，来完成将图片中一个域到另一个域的无缝转换。简单来说CycleGAN能将图像的主题风格或者某一域主体完美进行切换，具体效果如下：

3a2aY36.png!web

斑马与马的互转

CycleGAN有升级版的UGATIT，其效果更好，可以用在卡通风格的转换：

6rMZRvj.png!web

CycleGAN出现后，图像主题无缝切换将图像伪造技术提升了一个高度，在换脸之余还能把原背景主题进行切换，给鉴定带来麻烦。

StyleGAN：ALAE先导模型

StyleGAN模型也是N厂提出的，用来计算Picure A与Picture B结合的结果，StyleGAN还支持多种结合模式，详见下表：

Style 等级

Picture A

Picture B

高等级（粗略）

所有颜色（眼睛，头发，光线）和细节面部特征来自Picture A

继承Picture B高级的面部特征，如姿势、一般的发型、脸部形状和眼镜

中等级

姿势、一般的面部形状和眼镜来自Picture A

继承Picture B中级的面部特征，如发型，张开/闭着的眼睛

高等级（细微）

主要面部内容来自Picture A

继承Picture B高级面部特征，如颜色方案和微观结构

其两张图像按照三种style结合的效果如下图：

3AFFVrN.png!web

AI换脸的发展趋势

目前AI换脸的相关模型除了在效果方面不断取得突破之外，也有其它方面的发展动向，具体如下：

图像修复：Partialconv模型可以通过AI对于图像进行修复，这又是一个N厂提出的模型，即使图像丢失了大面积的像素，能通过AI将损失进行修复，Partialconv也是所谓的一键”去“衣、一键”去“码之类应用的鼻祖，其效果图如下：

jYrYzii.png!web

多媒体合成：Speech-Driven Facial Animation是一个由三星提出的使用照片加音频合成视频的模型。SDA能够仅使用人的静止图像和包含语音的音频剪辑来产生动画面部。其生成的视频不仅可以产生与音频同步的唇部动作，还可以呈现特有的面部表情，例如眨眼，眉毛等，同时能够捕捉说话者的情绪并将其反映在面部表情中。

原图如下：

I3UFRrI.png!web