4

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强

 6 months ago
source link: https://awtmt.com/articles/3708863
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Stable Diffusion 3来啦!提示文本理解更好,图像质量更强

AIGC开放社区 发表于 2024年02月22日 23:52
摘要:Stable Diffusion 3可对标闭源模型Midjourney,AI算力消耗更低,推理速度更快。

2月23日,著名大模型开源平台stability.ai在官网推出了——Stable Diffusion 3。

该版本与Stable Diffusion 2相比,在文本语义理解、色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面大幅度增强,可对标闭源模型Midjourney。

Stable Diffusion 3的参数在8亿——80亿之间,也就是说Stable Diffusion 3可能是专为移动设备开发的,AI算力消耗将更低,推理速度却更快。

目前,Stable Diffusion 3支持申请使用,未来会扩大测试范围。

申请地址:https://stability.ai/stablediffusion3

2f11f130-180b-4436-83be-0a636e418a16.png

stability.ai没有过多的介绍Stable Diffusion 3的技术内容,但指出其核心架构使用了Transformer和Flow FMatching(简称“FM”)。

Transformer大家都很熟悉了,ChatGPT、T5 、BERT等很多著名模型都是基于该架构开发的。

而FM是Meta AI和魏茨曼科学研究所在2022年10月发布的,一种全新高效建模、训练技术概念。

Flow Matching论文地址:https://arxiv.org/abs/2210.02747

Flow Matching简单介绍

目前,很多文生图模型使用的是CNF(连续正规化流动)训练方法,主要使用常微分方程对流动进行建模,实现从一种已知分布到目标分布的平滑映射。

但由于训练过程需要进行大量的微分方程模拟,会导致算力成本高、模型设计复杂、可解释性差等缺点

FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响

60f42145-e2de-4cc0-b99c-014d6ec195e4.png

1)条件概率路径构建:FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。

2)变换层:构成FM的基本单元,每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转,从而允许从目标分布反推到原始分布。

3)耦合层:将输入分成两部分,对其中一部分应用变换,而变换函数可以是任意的神经网络,其参数由另一部分决定,保证了变换的可逆性。

目前,FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。

Stable Diffusion 3案例展示

本次的发布页面也是由Stable Diffusion 3生成的,提示词:史诗般的动漫艺术风格,一位巫师站在夜间的山顶上,向黑暗的天空施放咒语,上面写着由彩色能量生成的“Stable Diffusion 3”文字

2b64d3ca-eef3-47b9-8988-2c41ebb909e4.png

教室桌子上有一个红苹果,电影风格,背景的黑板上用粉笔写着“要么做大,要么回家”

c80d7ecd-9d98-4ad7-a1a0-64b31e907c07.png

一名宇航员骑着一只穿着蓬蓬裙的猪,撑着一把粉色的伞,猪旁边的地上有一只戴着高帽的知更鸟,角落里写着" Stable Diffusion "的字样。

d592666a-4242-47a4-9dcf-1151a5bb606b.png

一只变色龙,黑色背景,摄影风格。

78c3e052-d550-48bf-a50c-bb04776f6183.png

一辆跑车的夜间照片,侧面写有“SD3”字样,汽车在赛道上高速行驶,巨大的路标上写着“更快”的文字。

a6cb3d57-d662-40de-810a-ec8d5abee378.png

波浪冲击苏格兰灯塔的鱼眼镜头照片,黑色波浪。

327f6f33-140f-4a30-8580-e7042825fb29.png

本文来源:AIGC开放社区(ID:AIGCOPEN),原文标题:《Stable Diffusion 3来啦!提示文本理解更好,图像质量更强》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK