1

英伟达超快StyleGAN回归，比Stable Diffusion快30多倍，网友：GAN好像只剩下快了

1 year ago

source link: https://www.qbitai.com/2023/01/41666.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

neoserver,ios ssh client

英伟达超快StyleGAN回归，比Stable Diffusion快30多倍，网友：GAN好像只剩下快了

萧箫 2023-01-30 12:52:54 来源：量子位

“让GAN再次伟大？”

萧箫发自凹非寺
量子位 | 公众号 QbitAI

扩散模型的图像生成统治地位，终于要被GAN夺回了？

就在大伙儿喜迎新年之际，英伟达一群科学家悄悄给StyleGAN系列做了个升级，变出个PLUS版的StyleGAN-T，一下子在网上火了。

dd1744425b1642e7a0d0bd6cde3f8f0c~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=pRdZpUoCONyHf93IEInt2AI%2B%2FH0%3D

无论是在星云爆炸中生成一只柯基：

2cd5e331afc2489da98d797269509513~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=wlULcLQk798M603NEEioaxsEW8Q%3D

还是基于虚幻引擎风格渲染的森林：

ba67ea462ac146349d44678a31fc6161~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=zFTXsc701U5C4dT%2BQJKq9tgBcz4%3D

都只需要接近0.1秒就能生成！

同等算力下，扩散模型中的Stable Diffusion生成一张图片需要3秒钟，Imagen甚至需要接近10秒。

不少网友的第一反应是：

GAN，一个我太久没听到的名字了。

62ea23d230ed40db83c9f148a20d8bf0~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=D8gsywKRpE%2FkLlBGu95LvMwE4lI%3D

很快谷歌大脑研究科学家、DreamFusion第一作者Ben Poole赶来围观，并将StyleGAN-T与扩散模型做了个对比：

在低质量图像（64×64）生成方面，StyleGAN-T要比扩散模型做得更好。

a47d5f04f9884684b977cc9519715d69~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=lIOec%2FjWsoOhzrM0gWCh9qRRELM%3D

但他同时也表示，在256×256图像生成上，还是扩散模型的天下。

所以，新版StyleGAN生成质量究竟如何，它又究竟是在哪些领域重新具备竞争力的？

StyleGAN-T长啥样？

相比扩散模型和自回归模型多次迭代生成样本，GAN最大的优势是速度。

因此，StyleGAN-T这次也将重心放在了大规模文本图像合成上，即如何在短时间内由文本生成大量图像。

StyleGAN-T基于StyleGAN-XL改进而来。

StyleGAN-XL的参数量是StyleGAN3的3倍，基于ImageNet训练，能生成1024×1024高分辨率的图像，并借鉴了StyleGAN2和StyleGAN3的部分架构设计。

它的整体架构如下：

46ffea07b22a4e969bf0cee5279dc9ef~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=Hnts1SDV8JB7dUdtRxe%2BjWa8qEY%3D

具体到细节上，作者们对生成器、判别器和文本对齐权衡机制进行了重新设计，用FID对样本质量进行量化评估，并采用CLIP来对文本进行对齐。

在生成器上，作者们放弃了StyleGAN3中能实现平移同变性（equivariance）的架构，转而采用了StyleGAN2的部分设计，包括输入空间噪声以及跳层连接等，以提升细节随机变化的多样性。

在判别器上，作者们也重新进行了设计，采用自监督学习对ViT-S进行训练。

随后，作者采用了一种特殊的截断（truncation）方法来控制图像生成的效果，同时权衡生成内容的多样性。

只需要控制参数ψ，就能在确保CLIP分数（用于评估图像生成效果）变动不大的情况下，改善生成图像的风格多样性。

627363c2bd8f47269982f417a8ee5852~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=oldP%2BBoXfkS2306lXW%2FU87%2BgfUY%3D

随后，作者们用64个英伟达A100训练了4周，最终得到了这版StyleGAN-T。

那么它的生成效果如何呢？

超快生成低分辨率图像

作者们对当前最好的几种GAN、扩散模型和自回归模型进行了评估。

在微软的MS COCO数据集上，StyleGAN-T实现了64×64分辨率下最高的FID。

（其中，FID是计算真实图像和生成图像特征向量距离的评估用值，数值越低，表示生成的效果越接近真实图像）

509b132291884ba683d442d9ca359fcd~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=9gq9%2B6NlUNQ9Vl6ON0xjFGyDh%2B4%3D

但在更高的256×256分辨率生成上，StyleGAN-T还是没有比过扩散模型，只是在生成效果上比同样用GAN的LAFITE要好上不少：

7e6ded3249014f5aacf140ba12c59613~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=Ydcj35kbOebnehbAtwG8CAPk4W4%3D

如果进一步将生成时间和FID分别作为纵轴和横轴，放到同一张图上来对比，还能更直观地对比生成质量和速度。

可见StyleGAN-T能保持在10FPS的速度下生成256×256分辨率图像，同时FID值逼近LDM和GLIDE等扩散模型：

89a3ac730406431581f7ffd84b61f1e2~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=v2CW5xuHewb2iUtIse3l2fyuOR0%3D

而在文本生成图像功能上，作者们也从文本特征、风格控制等方面对模型进行了测试。

在增加或改变特定的形容词后，生成的图像确实符合描述：

dad94655dfea4e96a74435dfbc298410~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=FS2yg4Dk4VOL2cExZeC6hFq%2F7uw%3D

即便是快速生成的图像，也能迅速控制风格，如“梵高风格的画”or“动画”等：

28f6ed05ae8745dabb5fb3e4597adcf3~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=MxsBYmqU%2FYVL%2BGSLBZ8o%2BHXw208%3D

当然，偶尔也有失败案例，最典型的就是生成带字母要求的图像时，显示不出正常字母来：

b5a1f556b63b441fb2889f92be4e41ea~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=gjpZo%2Ff7OOOkQs%2B3gtL7sUj8K4U%3D

作者们正在努力整理代码，表示不久之后就会开源。

4cbbb3a9b0f84305b86f3867c62c1f55~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=2NUASLH%2BEj6vT5q69KhCNS1au%2FQ%3D

作者们均来自图宾根大学和英伟达。

40c2c7e68fc94d4d9aaf08c811888763~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=BKD3ai7BvTqTAqEq0HXPhOvFJow%3D

一作Axel Sauer，图宾根大学博士生，此前在卡尔斯鲁厄理工学院（KIT）获得本硕学位。目前感兴趣的研究方向是深度生成模型、神经网络架构和实证研究。

ed0424ab2d9f45999476c2c22e0a23a8~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=xbPsk3muUrLlrcVu01Kw4UdY62U%3D

二作Tero Karras，英伟达杰出研究科学家，对英伟达RTX技术有重要贡献，也是StyleGAN系列的主要作者，主要研究方向是计算机图形学和实时渲染。

f7d4273e598549e8a80bef229917ae2f~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=%2BTmSIHM1%2B%2BxbbntP8kff2Z%2FMOjU%3D

不过在这波GAN掀起的“文艺复兴”浪潮下，也出现了“StyleGAN时代迎来终结”的声音。

有网友感慨：

在这之前，最新StyleGAN生成的图像总能让我们大吃一惊，然而现在它给我们的印象只剩下“快”了。

76e10442b1fc494283d4928d46943f81~noop.image?_iz=58558&from=article.pc_detail&x-expires=1675658764&x-signature=FQFObTKkEdncJvJaFOvYVBjpjaM%3D

你认为GAN还能撼动扩散模型的统治地位吗？

论文地址：
https://arxiv.org/abs/2301.09515

项目地址：
https://github.com/autonomousvision/stylegan-t

版权所有，未经授权不得以任何形式转载及使用，违者必究。

Recommend

About Joyk

Aggregate valuable and interesting links.
Joyk means Joy of geeK