2

物理改变图像生成:扩散模型启发于热力学,比它速度快10倍的挑战者来自电动力学

 1 year ago
source link: https://www.qbitai.com/2023/01/41251.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

物理改变图像生成:扩散模型启发于热力学,比它速度快10倍的挑战者来自电动力学

head.jpg明敏 2023-01-14 14:02:24 来源:量子位

掀起这波AIGC热

丰色 萧箫 发自 凹非寺

量子位 | 公众号 QbitAI

现在,图像生成领域的半壁江山已经被物理学拿下了。

火出圈的DALL·E 2、Imagen和Stable Diffusion,它们共同基于的扩散模型——

都是受到物理热力学的启发诞生的。

b46f6b6b170a4848b7f988236c368f6f~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=pVuLiXEOlrfW8vkfT%2BfyGeUNDJU%3D

不仅如此,来自MIT、收录于NeurIPS 2022的一种比扩散模型效果还要好、速度还要快的新生成模型,则启发于电动力学

bde7d1dc6bbc4420b90444f04004cb02~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=0%2Fx%2BrSGjCaA96V8atf3ACLaf0lo%3D

如此攻势,让人不得不感叹:

留给图像生成的物理模型已经不多了?(手动狗头)

热力学如何启发扩散模型?

雏形:从一滴墨水得到启发

事实上,扩散模型并非从一开始就“崭露头角”。

很长一段时间里,图像生成领域的王者都非GAN莫属,即便期间不少新模型提出,它的生成效果仍然吊打其他一众模型。

初版扩散模型也是在这个背景下诞生。

就在GAN论文发布的后一年,斯坦福大学博士后Jascha Sohl-Dickstein基于GAN“没法学习完整概率分布”的缺陷,想到了一个idea。

d167fbbb66034faa876b885b88a5a5ed~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=876kDzXTirUjXegap7DaQKYaXkQ%3D

非平衡热力学有钻研的他,思考为何不能将物理和图像生成结合起来?

非平衡热力学是热力学的一个分支,专门研究某些不处于热力学平衡中的物理系统。

典型例子是一滴会在水中扩散的墨水。

在扩散之前,这滴墨水会是在水中的某个地方形成一个大斑点,但如果想模拟墨水开始扩散前的初始状态概率分布就会非常困难,因为这个分布很复杂、导致很难采样。

但随着墨水扩散到水中、水逐渐变成淡蓝色,墨水分子将分布得更简单更均匀,我们就可以很轻松地用数学公式来描述其中的概率。

这时候,非平衡热力学就上场了,它能将墨水扩散过程中每一步的概率分布都描述出来:

由于扩散过程的每一步都可逆,所以只要“步子”足够小,就可以从简单的分布再推断出最初复杂的分布来。

03f170b2e7544a299bb28650d5e760b3~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=BEUwUX%2F3%2BRBLAbMppmVe5P6MPLc%3D

△就像是将这个过程倒放

Jascha Sohl-Dickstein就是受这个扩散原理的启发,创建了“扩散模型”,具体分为两步。

首先,通过某种算法将复杂图像转化为简单的噪声。

这一过程就类似于一滴墨水扩散到水全部变蓝,然后再逆转这一过程,将噪声转化为新图像。

具体来说,当系统拿到一张训练图像,这张图像的百万像素中的每一个点都有相应的值,根据这些值就能将像素转变为百万维空间中的一个点。

随后,用算法在每个时间步长中向每个像素点添加一些噪声,相当于墨水的每一步扩散,这样每个像素的值与其原始图像中的值之间的关系就会越来越小,直到看起来更像是一个简单的噪声分布。

接下来,对数据集中的所有图像执行这一操作,百万维空间中一开始由各个点组成的复杂分布(无法轻易描述和采样),就会变成围绕原点组成的简单正态分布。

fdc37ce397f949919c42cda827a5e5d9~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=%2FAVLX3cGzS%2F55NSqfNQ2t0AXLx8%3D

Jascha Sohl-Dickstein解释道:

这个非常缓慢的“前向”转换过程就好比将数据分布变成了一个巨大的“噪音球”,提供了一个可以轻松采样的分布。

然后,再用这些被算法转换的图像,训练得到最终的扩散模型。

具体来说,就是喂给神经网络从前向转换过程中获得的噪声图像,训练它预测之前一步得到的噪声较小的图像,在这期间不断调整参数、改善模型,最终,它就可以将噪声图像输出成我们想要的图像。
这样训练好的神经网络,无需学习原始图像,就可以直接采样生成全新的图像。

2015年,Sohl Dickstein将这个扩散模型的雏形进行了发表。

遗憾的是,尽管它能够对整个分布进行采样,也不会只吐出图像数据集的“子集”,但能力还远远落于GAN——既表现在生成质量上,也表现在生成速度上。

改进:造就DALL·E2、Stable Diffusio等爆火模型

最终,是两位博士生的相继改变,造就了最终的“现代版”扩散模型。

首先是2019年,还在斯坦福大学读博士的Yang Song,和他的导师在完全不知道Sohl Dickstein成果的情况下,想出了一种类似的新方法。

fa0730c93bfb4b879ec2fb484c02dfcc~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=E%2BJ0iRhQvaPX%2Bs7cVurOAsJKqhQ%3D

相比Sohl Dickstein估计数据(即高维表面)的概率分布的做法,Yang Song估计的是分布的梯度(即高维表面的斜率)。

而通过先用不断增加的噪声水平干扰训练集中的每个图像,然后再让神经网络使用分布梯度预测原始图像,可以非常有效地去噪,最终生成质量很高的图像。

不过,这种方法的采样速度非常慢。

好在很快,2020年,UC伯克利的Jonathan Ho看到了这两项研究,意识到后者的思路可以用来重新设计和改进Sohl Dickstein最开始的那版雏形。

75b4cea24bce4bf09522ab587f59e638~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=tncmK3l0okUK2xNewsdvxamKDBw%3D

于是,就有了后来大名鼎鼎的DDPM(Denoising Diffusion Probabilistic Models)——它在所有的任务中,要么打平、要么超过所有其他生成模型,包括统治了该领域多年的GAN。

08bc8e272ab14df1b33b21fbcff492ac~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=bz8zNbuRGfngedwBU0G4FgRjOSc%3D

至此,一个最初启发于物理学原理的机器学习模型,几经周转,最终掀起了AIGC领域的热潮——

我们现在看到的DALL·E2、Stable Diffusio、SD和Imagen……都是基于DDPM这一扩散模型改进而来。

MIT新电动力学图像生成模型

现在,又是“拜物理学所赐”,扩散模型也迎来了新的挑战者。

基于电动力学的启发,来自MIT的研究人员提出了一种新的“泊松流”生成模型PFGM(“Poisson Flow” Generative Models)。

具体来说,这个生成模型将数据看成空间中新增z=0平面上的电荷,电荷产生了空间中的电场。

其中,电荷产生的电场线对应数据采样过程,电场线的方向即空间中泊松方程的解的梯度。

代表数据的电荷沿着产生的电场线向外移动,最终会形成一个半球面,并在球面半径足够大时,电荷在半球面上均匀分布。

adcd0a125490479c92b0de319e90e7b0~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=m2qe5b79FUv6um%2B0QJxmOBtso6w%3D

与扩散模型中每一步概率分布都是可逆的一样,电场线也是可逆的。

因此,可以利用这种效果训练模型,让它学会通过均匀分布在半球面上的数据,反过来生成z=0平面上的数据。例如下图这个例子,数据分布一开始呈爱心状,但当数据最终移动到半径足够大的半球面上时,它们会呈现出均匀分布状态:

ff8eefc944ff4c1bba87f991abc55a16~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=eVk%2Fxe20jlaUqXCY5Pl8gEe5El0%3D

对应到图像生成过程中也一样,z=0平面上的数据分布,是我们希望生成的图像。

而生成模型要做的,则是通过半球面上均匀分布的数据,来反向推出希望生成的图像:

adaaf6ff6da548fd945dfde756caaade~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=uYx2qpclXgkV83ddckAa7mpKfOA%3D

在CIFAR-10数据集上的评估中,PFGM是在一众类似思路模型中表现最好的,超过了扩散模型。

e4da4487e6f443c5a469a8c6897b7db4~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=8FCJT%2BJjlZIXQgI%2BTQwP%2FC7uAE4%3D

而且,PFGM在与扩散模型生成质量差不多的同时,速度要快上10~20倍,在速度和生成质量上取得了更好的“兼顾”。

下图是PFGM基于不同数据集训练后生成图片的过程,效果确实也是很能打了:

c217a4a39066409a9847a6850b9a6fb2~noop.image?_iz=58558&from=article.pc_detail&x-expires=1674280823&x-signature=lPEC1u%2Fb1a6iFHO4PgyO6i4zyLY%3D

猜猜下一个挑战图像生成领域的物理模型会是什么?

参考链接:
[1]https://www.quantamagazine.org/the-physics-principle-that-inspired-modern-ai-art-20230105/
[2]https://arxiv.org/abs/2209.11178
[3]https://arxiv.org/pdf/1503.03585.pdf

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK