6

这个模型,让前特斯拉AI总监Andrej Karpathy沉迷了整整三天!

 2 years ago
source link: https://www.51cto.com/article/716817.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

这个模型,让前特斯拉AI总监Andrej Karpathy沉迷了整整三天!

作者:新智元 2022-08-21 21:15:28
8月10日,一个名为Stable Diffusion的开源模型正式发布,众网友都玩疯了。

最近,一个叫Xander Steenbrugge的AI研究员兼数码艺术家,上传了一段非常震撼的视频《跨越时间之旅》。

地球上的生物大进化,从原始海洋起始,到远古蜥蜴、恐龙、哺乳动物,再到猴子、猩猩、猿人、智人……最后出现了科幻中的未来世界。

而Steenbrugge也激动地评论道:我们正在跨越一个门槛,生成式人工智能不再只是关于新颖的美学,而是演变成了一个惊人的工具,可以构建强大的、以人为中心的叙事。Steenbrugge表示,这个视频用了36个连续的短语。为了找到可能的最佳顺序,他尝试了超过一千种不同的提示和种子,并在代码中应用了许多「提示工程」的技巧,来弄清楚到底哪些是有效的,哪些是无效的。

图片

前特斯拉AI高级总监Andrej Karpathy看完后大受震撼,也忍不住手痒尝试了一波。

「超现实的蒸汽朋克神经网络机器,呈大脑形状,放置在一个基座上,上面布满了齿轮制成的神经元」,在输入这段文字后,他的大作也生成了。

2分钟的视频(在A100上渲染约1小时),是通过在随机噪声输入的模型之间平滑插值生成的。

这个名为Stable Diffusion的模型,采用的是在两个句子的意义之间「插值」的方式。插入的地方是语义的间隔,而不是视觉的空格,因此,它极大地改变了故事叙述的方式。

而这,仅仅是由生成式人工智能驱动的数字内容创作革命的开始。

‍Stable Diffusion:开源模型的里程碑

从2021年初以来,可以从文本描述生成图像的人工智能一直在快速发展。当时,OpenAI用DALL-E 1和CLIP展示了令人印象深刻的结果。

在2022年,OpenAI发布了令人印象深刻的DALL-E 2,谷歌展示了Imagen和Parti,Midjourney推出了公测版,Craiyon创作的AI图像也遍布各种社交媒体。

而就现在最近,Stability AI又发布了一个全新的模型——Stable Diffusion。

图片

不过,与DALL-E 2不同的是,Stable Diffusion可以生成OpenAI禁止的各种知名人士。

虽然像是Midjourney、Pixelz.ai等等这些系统也可以做到,但它们生成的质量,还远没有达到能与Stable Diffusion相媲美的程度,而且还都不是开源的。

现在有请我们的老朋友马斯克,表演一个秒变「黑寡妇」(斯嘉丽·约翰逊)。

图片

显然,作为主要开发者的Stability AI,希望不止一家公司或团队能够训练Stable Diffusion的变体。

比如,你是一个没有海量的GPU算力的研究人员。不用担心,Stable Diffusion即将能够在一块仅有5.1GB VRAM的显卡上运行。

再比如,你是一个平时使用配备苹果M1芯片的MacBook的爱好者,Stable Diffusion也可以运行。只不过,这时图像生成的时间就要从几秒钟变成几分钟了。

如此看来,多模态模型正沿着以前大型语言模型所走的道路前进:远离单一的供应商,并通过开放源码广泛提供众多的替代方案。

图片

此外,Runway已经在研究如何基于Stable Diffusion来实现文本到视频的编辑了。

一句话,让网球场变沙滩;

图片

不管电闪雷鸣,还是风和日丽;

不管是在月球,还是在火星之上;

图片

都无法阻止我打网球……

用计算来加速基础AI的开源

在测试阶段之后,Stable Diffusion就会免费,代码和经过训练的模型将作为开源发布。还将有一个带有Web界面的托管版本,供用户测试系统。

Stable Diffusion 是 Stability AI、RunwayML、LMU Munich、EleutherAI 和 LAION 的研究人员合作的结果。EleutherAI以其开源语言模型GPT-J-6B 和GPT-NeoX-20B等而闻名。

非营利组织 LAION(大规模人工智能开放网络)为训练数据提供了开源LAION 5B数据集,该团队在初始测试阶段根据人工反馈对其进行过滤,以创建最终的LAION-Aesthetics训练数据集。

Runway的Patrick Esser和LMU 慕尼黑的Robin Rombach领导了这个项目,他们在海德堡大学 CompVis小组的研究奠定了这个项目的基础。在海德堡大学,他们创建了广泛使用的VQGAN和Latent Diffusion。这两个模型再加上OpenAI和Google Brain的成果,使Stable Diffusion得以实现。

Stability AI成立于2020年,背后的出资人是数学家、计算机科学家Emad Mostaque。他曾在各种对冲基金担任分析师。

凭借Stability AI和他的私人财富,Mostaque希望能够培育一个开源AI研究社区。他的创业公司之前就支持创建「LAION 5B」数据集。为了训练Stable Diffusion的模型,Stability AI为服务器提供了4,000个Nvidia A100 GPU。

「除了我们的75名员工之外,没有任何其他人拥有决策权——无论是亿万富翁、大型基金,还是政府,我们是完全独立的。」Mostaque说。「我们计划使用我们的计算来加速基础人工智能的开源。」

网友都玩儿疯了

除了开头地两段视频,也有网友用Stable Diffusion生成一段衰老的动画。

他表示,制作过程中在长提示中改变一个词,比在短提示中有更微妙的效果。此外,使用描述,如老,中年,幼儿,通常比说明具体的年龄,如10岁,40岁,80岁效果更好。

3890f6127b80607aa2a1534498e00711207d00.jpg

此外,还有各种梦幻的静态图片。

图片
图片
图片

Leyendecker和Maxence笔下的「黑魂」

93470ce88ad00c56719772d28a31ee7c8f871e.jpg

「赛博京剧」

感受一下特斯拉的前人工智能和自动驾驶视觉总监Andrej Karpathy被虐的心路历程。

图片

看完大神制作的视频之后,Karpathy非常激动。

然后一波操作搞出来的成果,放进幼儿园小班里都毫无违和感。绝望的Karpathy直呼想要请一位「提示工程师」替自己创作。最后Karpathy终于悟了,创作出了他非常满意的新作——蒸汽朋克人工神经网络机器,和蓝莓意大利面。

责任编辑:张燕妮 来源: 新智元

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK