8

图像生成AI,压缩图像的效果好于JPEG或WebP

 1 year ago
source link: http://jandan.net/p/111407
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

非侵入性、3分钟诊断帕金森症

majer @ 2022.10.03 , 23:26

1

图像生成AI,压缩图像的效果好于JPEG或WebP

上上周,瑞士软件工程师 Matthias Bühlmann 发现,风靡技术社区的图像合成模型 Stable Diffusion可以用比JPEG或WebP更高的压缩比压缩现有的位图图像,其视觉伪影更少。

Stable Diffusion是一款AI图像合成模型,可根据文字描述生成图像。人工智能模型从互联网上提取数百万张图像来理解模式。在训练过程中,模型在图像和相关词之间建立统计关联,对每张图像的关键信息概括出一个最小表示,并赋予“权重”。

视频压缩过程中的量化噪声导致称作“伪影” 的特定视觉误差。在伪影当中有块状、环状以及飞蚊噪声,其中块状、环状是块中的竖线和横线, 飞蚊噪声看起来像图像强边缘周围的一团线虫。

当Stable Diffusion分析图像,然后把它“压缩”为权重形式时,它们位于研究人员所谓的“潜在空间”中。一旦被解码,就可显示为图像。比如说Stable Diffusion 1.4,权重文件大约为 4GB,但包含数亿张图像的信息。

虽然大多数人使用带文本提示的Stable Diffusion,但 Bühlmann 切断了文本编码器,强制通过Stable Diffusion的图像编码器来处理他的图像,该过程将低精度的 512×512 图像转换为更高精度的 64×64 潜在图像空间表示。此时,图像存在的数据量比原始图像小得多,但仍可以将其扩展(解码)回 512×512 图像,并获得相当好的结果。

在测试时,Bühlmann发现使用Stable Diffusion压缩的新图像在更高的压缩比(更小的文件大小)下,主观上看起来优于JPEG 或 WebP。Stable Diffusion图像似乎具有更多可分辨的细节和更少的压缩伪影。

然而,Bühlmann 的方法目前有很大的局限性:它不适用于面部;在某些情况下,它会向解码图像中添加不存在的细节特征。此外,解码需要4GB权重文件和额外的解码时间。

Stable Diffusion的这种用法无疑是非常规的,且比现有的压缩方法更有趣。它可能指向图像合成模型未来的新用途。Bühlmann 的代码可以在 Google Colab 上找到,您可以在他关于 Towards AI 的帖子中找到更多技术细节。

https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-diffusion-can-compress-images/

关于 Stable Diffusion,参加下面的链接
http://jandan.net/p/111282

赞一个 (3)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK