4

大象P转身开箱即用!港大、南大、清华等抢先开源「复刻」版DragGAN

 1 year ago
source link: https://www.51cto.com/article/755801.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

大象P转身开箱即用!港大、南大、清华等抢先开源「复刻」版DragGAN

作者:新智元 2023-05-26 09:45:56
DragGAN非官方实现来了!完美复刻拖拽秒P图功能,可以直接上手尝试。

还记得前几天发布的DragGAN吗?

没错,就是那个「轻轻点两下」1秒修图的工具。

图片

拍的照片表情不好?修!脸型不够瘦?修!脸冲镜头的角度不对?修!

图片

搞不好,「让大象转个身」这个远古PS段子,可能就要成真了 

这个AI修图工具演示视频一经发布,瞬间在国内外火得一塌糊涂。

许多网友纷纷直呼,「PS不存在了」。

还没几天,DragGAN非官方实现竟能上手试用了。这一功能已经被集成到InternGPT中,界面长这样↓

图片

体验地址:https://igpt.opengvlab.com/

没想到,演示入口一开放,直接被挤爆。

图片

从官方放出的演示视频来看,再现的DragGAN效果绝了。

咧嘴笑

图片

先是怎么把一个没笑的人p笑。只要选中两个嘴角,直接Drag就好了。

可以看到,最终生成的结果毫无违和感。因为面部肌肉也在一起变化,不是单纯的咧嘴。

合上嘴

图片

脸部编辑

图片

这个瘦脸功能大家就太熟悉了,选中两个脸蛋往里挤,输出还是非常自然的。

图片

男性瘦脸。不过这个有点瘦过了,输出结果一眼假,下巴太尖了。

图片

这个必须强推!植发!多少秃头人士的福音。

不过从输出结果看,就算选中额头那里,也是全部地方的毛发等比例增长,最后的结果有点像美猴王。

转脸

图片

脸部转动也是一个很实用的功能,补齐的部分非常自然。

除了小范围的修图,InternGPT本身还有很多其它可以进行的亮眼操作。

图片

移除遮盖的对象

单击想要在图片中进行操作的部分,在prompt中输入「移除」就可以了。

图像生成

图片

这个功能比较有意思,先上传一张图片,输入prompt让DragGAN分割,然后再输入一个prompt生成想要的图片。

露出黑脚了?(不是)

视频高光解说

图片

用prompt还可以一键剪辑视频。

交互式视觉问答

图片

甚至识别完图片上的信息还能联网直接查询。

交互式图像生成

图片

随手的涂鸦都能一键变成美图。

反正看完这些功能小编是真震惊了。所有功能就突出两个特点:「傻瓜式操作,且究极好用」。

这谁能不爱?

看了这么多酷炫的功能,那么这个InternGPT到底是什么?

InternGPT(简称iGPT)/InternChat(简称iChat)是一种基于指向语言驱动的视觉交互系统,用户可以通过点击、拖动和绘制与ChatGPT进行互动。

与依赖纯语言的现有交互系统不同,通过整合指向指令,iGPT显著提高了用户与聊天机器人之间的沟通效率,以及聊天机器人在视觉为中心任务中的准确性,尤其在复杂的视觉场景中更是如此。

图片

论文地址:https://arxiv.org/pdf/2305.05662.pdf

下图就是InternGPT的整体架构。

我们可以看到,这个GPT既可以处理图像、视频,也可以处理语音、文字。

对于图像或视频输入,InternGPT就会用SAM(图像分割模型)、OCR(图像识别模型)等等进行处理。

在识别出地理位置、物品或者线条之后,还有一整个工具箱进行进一步处理,其中都是我们耳熟能详的工具。

比如BLIP(音频)、Stable Diffusion(图像)、Pix2Pix(图像翻译)等等。

同样地,对于文字或者语音输入,InternGPT就会调用GPT-4、LLaMA等模型或工具进行处理,后续同样有一整个工具箱。

图片

InternGPT的整体架构

而在使用过程中,整个流程也是非常方便的。

用户在图片上传成功后,可以发送如下消息与iGPT进行多模态相关的对话:

"what is it in the image?" or "what is the background color of image?".

同样,用户也可以交互式地操作、编辑或者生成图片,具体如下:

· 点击图片上的任意位置,然后按下 Pick 按钮,预览分割区域。也可以按下 OCR 按钮,识别具体位置处存在的所有单词;

· 要在图像中删除掩码区域,可以发送如下消息:

“remove the masked region”

· 要在图像中替换掩码的物体为其他物体,可以发送如下消息:

“replace the masked region with {your prompt}”

· 想生成新图像,可以发送如下消息:

“generate a new image based on its segmentation describing {your prompt}”

· 想通过涂鸦创建新图像,按下 Whiteboard 并在白板上绘制。绘制完成后,需要按下 保存 按钮并发送如下消息:

“generate a new image based on this scribble describing {your prompt}”
图片

那个令人震惊的DragGAN现在有一个非官方的版本。正式版本将在6月发布,这只是未来的预览。

图片

DragGAN已经集成到InternGPT了,这么快就出来了,修图神器。

图片

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK