4

华为、清华等开源超高清、精准文生图模型,0.5秒极速生成!

 7 months ago
source link: https://www.aixinzhijie.com/article/6844782
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
2024-02-06 03:32

华为、清华等开源超高清、精准文生图模型,0.5秒极速生成!

文章来源:AIGC开放社区

图片来源:由无界AI生成
图片来源:由无界AI生成

华为诺亚方舟实验室、清华大学信息科技学院、大连理工、香港大学和Hugging Face的研究人员,联合开源了超高清文生图模型——PIXART-δ。

研究人员将潜在一致性模型(LCM)和创新控制架构ControlNet-Transformer集成在PIXART-δ中,在文生1024*1024高质量图像方面实现了重大技术突破,仅用0.5秒2-4个推理步骤就能完成图像生成,这也比之前的PIXART-{\alpha}模型快了7倍。

此外,PIXART-δ在ControlNet-Transformer帮助下,可以在不同条件下对生成模型的输出进行精确控制,例如,图像的边缘、深度、分割和对象姿势等,有点类似OpenAI的DALL·E 3。

开源地址:https://github.com/PixArt-alpha/PixArt-alpha
论文地址:https://arxiv.org/abs/2401.05252
在线Demo:https://huggingface.co/spaces/PixArt-alpha/PixArt-LCM
FslDC5ggHa7xR89_efJpWbv0Eiqg

潜在一致性模型

LCM是一种用于加速生成模型的全新高效方法,核心技术是将生成模型的反向采样过程,看成是解决一个增强的概率流动常微分方程(PF-ODE)流程

传统的生成模型是通过迭代采样的方式生成图像,需要繁琐的步骤并且每个步骤都需要大量的AI计算资源和时间。

而LCM通过预测增强的PF-ODE方法,将生成过程简化为几个微小步骤,以帮助模型用最快的速度生成高质量的图像。

PF-ODE主要描述了图像生成过程中的概率流动,并将每个数据点映射回其起源点。通过求解增强的PF-ODE,使得LCM可以在潜在空间中生成高质量的图像样本。

Ft-km0-5ZtEiTUkMzEisdTHGka0I

然后,LCM利用一致映射函数进行训练。这个函数能够直接从最后一个时间点,推断出任何其他时间点上的样本位置。所以,整个扩散回归过程就可以直接通过求解概率流微分方程实现,而不是像传统模型那样需要多步迭代。

这也是为什么PIXART-δ能用2—4个推理步骤就能生产高精准图像的原因。

ControlNet-Transformer

ControlNet在边缘检测、姿态估计、草图生成、表情表达等方面,展示了对文本生成图像扩散模型内容输出的优秀控制能力。

这是因为其拥有一个可训练的UNet副本,允许对输入条件进行操作,从而控制生成图像的整体布局。

在训练过程中,ControlNet冻结原始的文本到图像扩散模型,只优化可训练的副本。通过跳跃连接将该副本的每个层的输出与原始UNet集成,并使用“零填充卷积”层以避免过多的AI算力负担

FhEssLUnArUGdY2LUH4jSwweZXVG

但是,ControlNet架构是针对UNet-based扩散模型精心设计的,直接复制到Transformer中效果较差

所以,为了在Transformer架构中实现更好的精准控制能力,研究人员使用了一种创新的ControlNet-Transformer架构,并专门针对Transformer模型进行了优化和量身定制。

Fi_wnWD1QYoPvjeGUmC7wYEDp5pZ

ControlNet-Transformer通过在解码器中的每个解码层之间引入跳跃连接,并使用适当的注意力机制,使得生成的图像既具有高质量的细节,又能根据输入的条件进行灵活的调整和控制。

PIXART-δ生成案例赏析

以下是「AIGC开放社区」根据在线Demo生成的图像,整体来说生成效率非常高,语义还原精准,并且支持可视化生成流程控制,例如,生成步骤、图像尺寸、图像类型等,功能强大且易使用。

FmWSNj6jyeVvLAiRvwebLTjGWyea

一只戴着别致绅士帽、穿着夹克的拟人猫,站在秋天的森林中的肖像照。

FlNOGzPOcNPeSSz-TKrhyxUS0tpJ

美丽的女孩,雀斑,笑容灿烂,蓝色的眼睛,姜黄色的短发,深色的妆容,穿着花蓝色背心,柔和的光线,深灰色的背景,写实风格。

FvRA-QdR00oHzvzy6DoC7jVU4RhH

桌子上透明罐子里壮观的微小世界,大会堂内部,精心设计,雕刻建筑,解剖,象征,几何和参数化细节,精确的平面线细节,图案,黑暗幻想和难以表达的神秘情绪,技术设计,复杂的超细节,风格化和未来主义和仿生细节,建筑概念,低对比度细节,电影照明,8K,虚幻,逼真,超现实。

Fk_homve0amzbH5JcKhNRCIKKALr

一艘海盗船被困在宇宙漩涡星云中,在宇宙海滩漩涡引擎中渲染,体积照明,壮观,环境光,光污染,电影氛围,新艺术风格,4K,复杂的细节和纹理。

FiJ-aBCQO_O2QVFq8KK7BKxyFjBg

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK