10

高糊图片可以做什么?Goodfellow等人用它生成一组合理图像

 4 years ago
source link: https://www.jiqizhixin.com/articles/2020-06-08-6
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

给出一张低分辨率图像,你可以用它做什么,用机器学习方法将它尽量恢复原貌?除此之外呢?近日,谷歌 David Berthelot、Peyman Milanfar,以及 Goodfellow 提出了一种名为 LAG 的生成器,可以基于一张低分辨率图像生成一组合理的高分辨率图像。

生成逼真图像是一件困难的任务,近来研究人员提出了很多处理该任务的方式。如果我们把这项任务限制在生成特定类别的图像,任务就会简单许多。也就是说, 不用基于自然图像流形生成任意图像作为样本,而是从自然图像的特定「子空间」内采样图像,而这一过程由来自相同子空间的低分辨率图像指引

最近谷歌发表了一项研究,作者为谷歌研究院 David Berthelot、Peyman Milanfar,以及前谷歌大脑科学家、现苹果机器学习特殊项目组负责人 Ian Goodfellow。

JvmqIzQ.png!web

该研究试图解决的问题与单张图像超分辨率问题接近,但又有区别。图像超分辨率问题是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,而该研究目的不在于此,它试图使用输入图像作为指引,生成一组合理的高分辨率图像。

具体而言,该生成采样框架仅使用输入(大概率是极低分辨率的图像)来指向网络应生成的样本类别。而且,该算法的输出不只是与输入相关的单张图像,而是基于自然图像流形采样得到的相关图像集合。

LAG 方法仅在对抗潜在空间中使用感知损失进行学习, 无需像素损失

那么 LAG 效果如何呢?下图展示了该方法在人脸、卧室和教堂这三个类别上的图像生成效果:

UrmERzI.png!web

研究贡献

LAG 方法旨在解决现有方法的基本缺陷,并做出了以下贡献:

  • 将输入图像建模为一组可能的图像,而不是单张图像,即建模了(低分辨率)输入图像的流形;

  • 学习单个感知潜在空间,来描述预测和真值之间的距离;

  • 分析条件 GAN(conditional GAN)和 LAG 之间的关系。

LAG 方法

给定一个低分辨率的输入图像 y,该研究希望预测出可能的高分辨率图像的感知中心 x。该研究提出将可能的高分辨率图像建模为随机向量 z(z ∈ R^n, z ∼ N (0, 1))。在该模型中,(y,z) 唯一地映射到一张高分辨率图像 x_z。该研究假设高分辨率图像 x 是在 z=0 的正态分布的中心点获得的。

训练所用的函数需要 (y,z) 来预测高分辨率图像 x_z。该研究采用 GAN 术语,将此函数 G 称为生成器:

FZvaYrv.png!web

该研究设计了 critic 函数,用于判断高分辨率图像 x 是否和低分辨率图像 y 相对应。该研究提出将 critic 函数 C 分解为两个函数:

  • 从图像到潜在空间 p 的投影 P;

  • 从该潜在空间到 R 的映射 F。

研究者将 p 称为「感知潜在空间」。将投影函数 P 定义为:

eaiIruY.png!web

由 φ 和 ψ 参数化的 critic C: r2mqYjE.jpg!web 是 F 和 P 的组成部分:

M3E3qea.png!web

函数 G、P 和 F 都是用神经网络实现的。

LAG 实现细节:损失、条件和架构

该研究使用具有梯度惩罚(gradient penalty)的 Wasserstein GAN 损失。值得注意的是,使用 relativistic GAN 和谱归一化卷积也能得到不错的结果。不过,该研究没有穷尽所有可能的 GAN 损失选择(不在该论文研究范围内)。

研究者通过向 critic 提供低分辨率输入与真值的绝对差异来简化 critic 任务。即,计算

7rEB7nA.png!web

其中 x_z = G(y, z) 是生成的样本,H : R^x |→ R^y 是缩放算子,r 是颜色分辨率。缩放算子为高分辨率图像生成对应的低分辨率图像。研究者将缩放算子的输出四舍五入到最接近的颜色分辨率,在该案例中 r = 2/255。这种做法是为了避免网络不稳定。为了允许通过 rounding 操作进行梯度传播,该研究使用了 Hinton 的直通估计器(straight through estimator)[7]。

假设 stop gradient operation 为 sg,则直通估计器为:

3qYrueb.jpg!web

这里,研究者并没有提倡某一个特定的神经网络架构,因为有很多潜在可用的实现。更新更好的架构层出不穷,LAG 应该与其他架构相适应。在实践中,研究者决定使用类似 EDSR 的残差网络。对于 critic,该研究使用了几乎一样的架构,但顺序是相反的。

该架构按照 [9, 19] 提出的方法训练得到。关于架构和训练细节,以及 TensorFlow 代码,参见 GitHub 项目。

LAG 的效果:生成逼真的图像合集

LAG 方法的主要优势在于不止生成一张图像,而是 基于一张低分辨率输入图像生成一组合理的图像 。也就是说,建模可能图像的集合,并预测位于其中心的图像,还能够基于 z ∼ N (0, 1) 的分布生成样本。

该研究用三个类别说明 LAG 方法的能力:人脸、教堂和卧室,还展示了该方法的跨类别生成图像能力。

YVfqEni.png!web

图 1:对于不同的 z 值,基于 8x 下采样输入得到的生成图像示例。

v6NrUn3.png!web

图 2:对于不同的 z 值,基于 32x 下采样输入得到的生成图像示例。

镜像图像

在该实验中,研究者试图观察 LAG 网络跨类别生成图像的性能,即考虑给定图像及其镜像图像。

YvUjUvv.png!web

图 5:基于 16x 下采样输入得到的生成图像示例。

6nYRzif.png!web

图 6:基于 16x 下采样输入得到的生成图像示例。

噪声和随机输入

出于完备性考虑,研究者在该实验中考虑了 LAG 网络对带噪声图像输入或仅包含噪声的输入图像的反应。

YBbYZvu.png!web

图 7:基于 32x 下采样输入得到的生成图像示例,输入图像具备噪声,且噪声逐渐增加。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK