4

让AI学会画手的方法来了，给输入加个buff就能控制生成细节，华人小哥出品丨GitHub 4.6...

1 year ago

source link: https://www.qbitai.com/2023/02/42205.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

neoserver,ios ssh client

让AI学会画手的方法来了，给输入加个buff就能控制生成细节，华人小哥出品丨GitHub 4.6k星

萧箫 2023-02-20 14:12:41 来源：量子位

“让我们控制扩散模型”

萧箫发自凹非寺
量子位 | 公众号 QbitAI

给画画AI加个buff，画起图像就像开了挂。

加个人体骨骼绑定buff，Stable Diffusion直接快进到生成3D动漫：

e41d2363283f4b04bc171a7f15bee4c5~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=LruPTyFzWpIqIHdsjJx0zIO5DLk%3D

加个抽象到爆的草图buff，AI变着风格生成“完全一致”的狗子：

bcb29d1c6abe40f38da10575ce2a3657~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=2NPWa7%2FNRfVWi%2Fvygj0Z4ECqbU4%3D

就连号称“AI杀手”的手部细节，也能在控制之下画得惟妙惟肖：

29e0a37383454ae38801ffc4a7bab0e7~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=NbpDKbcL1MALIxjFtnXE2nHFUXo%3D

这个名叫ControlNet的新AI插件，可以说是给画画AI来了最后的“临门一脚”——

原本AI无法控制的手部细节、整体架构，有了它之后，加上Stable Diffusion这样的扩散模型，足以生成任何人们想要的图像。

发出不到两天，ControlNet就在GitHub上火了，目前已经狂揽4.6k星：

00f2738ae12142eab75a663c89bdfea4~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=wS3E6s9fh0RHREl6Gxt8UUDZavI%3D

△“让我们控制扩散模型”

各种效果图更是在推特上爆火，试玩过的网友直呼：

游戏结束！

31aee487cffd43849c79e414af28e10e~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=atvazpQu%2BOXvh7ipR0kaexEco0k%3D

所以，这个ControlNet究竟给扩散模型加了什么buff？

给AI画画模型加buff

ControlNet的原理，本质上是给预训练扩散模型增加一个额外的输入，控制它生成的细节。

这里可以是各种类型的输入，作者给出来的有8种，包括草图、边缘图像、语义分割图像、人体关键点特征、霍夫变换检测直线、深度图、人体骨骼等。

那么，让大模型学会“按输入条件生成图片”的原理是什么呢？

ControlNet整体思路和架构分工如下：

5ab1175fb35a4cb383eb74cbd1fb4c84~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=pXjTpYzbn3DEO6M3H6CF78pSAU4%3D

具体来说，ControlNet先复制一遍扩散模型的权重，得到一个“可训练副本”（trainable copy）。

相比之下，原扩散模型经过几十亿张图片的预训练，因此参数是被“锁定”的。而这个“可训练副本”只需要在特定任务的小数据集上训练，就能学会条件控制。

据作者表示，即使数据量很少（不超过5万张图片），模型经过训练后条件控制生成的效果也很好。

“锁定模型”和“可训练副本”通过一个1×1的卷积层连接，名叫“0卷积层”。

0卷积层的权重和偏置初始化为0，这样在训练时速度会非常快，接近微调扩散模型的速度，甚至在个人设备上训练也可以。

例如一块英伟达RTX 3090TI，用20万张图像数据训练的话只需要不到一个星期：

1a824432e8b048a297031a7de7fb77ce~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=cEIQSR97mwwW1EsT2Ldc%2F9K5zOg%3D

作者基于当前大火的Stable Diffusion进行了具体实现，主要架构如下：

d53cf3d198e44a3dab9e765feeab2650~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=4MfFRaaqHBT7inXLsEevpFJpFM0%3D

针对不同的输入，作者也给出了对应不同的模型，生成效果也都不错。

例如这是采用Canny边缘检测算法检测出的边缘，用于生成图像：

31915bebee9b40d0b2695f2ef3b37c9e~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=qjgmjMFPjkkuJWXQ%2BvNvvBe1zrY%3D

这是基于霍夫变换的直线检测算法生成的直线草图，用于生成各种风格的室内设计：

edf62c90156244dea238314d17fd6624~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=pJxosbVqW84gStawJrEyx98Ix%2FE%3D

当然，自己作画也可以，例如这是基于用户草图生成的小龟：

4a9884ce58a74353bd69638964b512a7~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=ph%2BujhYaGuvaQhAotNsgggaGWWA%3D

提取深度图，并让AI生成一幅相似的图像，直接举一反五：

e72e1fd4b0b94192873f53317867af4e~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=v7i1WYymguj7WaKZ0rgLxn06Vw0%3D

语义分割下的游泳池图像，不仅水里有倒影细节，建筑也变化多样：

6cf3927fce78435eb38b9ac8eb4637f1~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=21OMQeyhVip0sSmKgRMWGMDhknQ%3D

不过目前来看，最受欢迎的还是基于人体姿态估计算法，控制动漫人物的动作生成：

e9d17f4f338348a88919a6beffa1384b~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=mnjYkwYVCeSE6uBTQuci35B%2B5T0%3D

看到这里，是不是已经有了大胆的想法？（手动狗头）

曾开发爆火AI上色插件

bf63a7d68b48481a8309b7d0bb4afe90~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=bsa5byJXJs6ZeNKiax3%2FupW%2FobQ%3D

这个项目的作者Lvmin Zhang，2021年本科毕业于东吴大学，目前在斯坦福大学读博。

他最出名的项目之一，是2017年开发的AI上色插件style2paints，目前GitHub上已经有15.9k星。

0ae2996295be416b9e4d98d2b20803a4~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=6a87MeRvQC0Ak0GULm8MKYOOz7M%3D

style2paints也经过了好几次迭代，目前即将更新到第五版。

这是第四版的效果，只需要线稿，AI就能自动给你的图像完成上色：

34dac40b3d7445b8a0f954b2efc81211~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=MeZpypU%2Byhi6jIET5Cm6SnVkM%2Fc%3D

除了这个项目以外，他也是CV顶会的常客了。

c38d1dc8ce0d4be1a09b493285c2a8a9~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=mmR7%2F%2FGgN2mxcDZPdAjZ3jwmTlo%3D

One More Thing

值得一提的是，现在已经有基于ControlNet的国内产品上线了。

这个产品名叫稿定AI，包含照片转插画、插画线稿上色、插画优化翻新等功能，正是基于ControlNet打造。

作画效果大概是酱婶的：

84d934e71315473996eb458a714f7708~noop.image?_iz=58558&from=article.pc_detail&x-expires=1677477803&x-signature=Z0R2%2F3dnW%2BJ9vkkSWACr%2FRWtE4U%3D

感兴趣的小伙伴们可以去试玩一波了~

项目地址：
https://github.com/lllyasviel/ControlNet

参考链接：
[1]https://lllyasviel.github.io/Style2PaintsResearch/
[2]https://twitter.com/search?q=controlnet&src=typed_query
[3]https://www.gaoding.com/ai

版权所有，未经授权不得以任何形式转载及使用，违者必究。

Recommend

About Joyk

Aggregate valuable and interesting links.
Joyk means Joy of geeK