1

Midjourney CEO 最新演讲:AI是我们自身的延伸

 1 year ago
source link: https://www.ccvalue.cn/article/1412466.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Midjourney CEO 最新演讲:AI是我们自身的延伸

 •  2023-07-07
MJ,中国产?

7月7日,MidjourneyCEO大卫·霍尔兹在2023世界人工智能大会上发言,认为AI将成为创造和想象力的新的载体和引擎。通过AI,我们有可能放大整个人类种族的原始想象力。针对公司的名字Midjouney,霍尔兹表明它来自于道教著作《庄周》中的中道概念,他认为中国古典文学带来了很多最美丽的,最深沉的思想。

目前Midjouney正在进行5.3版本的开发,并会在版本6中提供一系列对生成图像进行缩放,平移来自动生成新的不同角度相关图像的能力,并且可以控制生成图像的随机性,让作者在诡异的美和令人迷惑的画面间找到平衡。在未来,Midjourney的目标是发展出三维,实时,动态可调的生成图像。

关于技术的未来,他并不确定可能的走向。但融合模型(图像 /文字用的模型进行融合)可能是比较可能的发展方向。他认为AI的这次技术进步的潜力还没有完全发挥出来,比现在强上十倍,百倍的进步是必然的。

他认为到目前为止技术上的大部分进步都来自于试图让人变得更好,试图放大人的能力。因此AGI也许并非是必要的,AI作为我们人的延伸,赋能人类才是更好的选择。

746c57091f13717486e834bee69ee437.png

以下为演讲实录:

大家好,我是大卫·霍尔兹,Midjourney的CEO和创始人. 我很荣幸受上海市政府邀请我参加这次人工智能世界大会,并很期待加入今天的活动。

世界上最重要的技术之一就是引擎。引擎是一种用于产生、转移或放大的机器。我们使用引擎在各种工厂建造各种各样的交通工具,如汽车、飞机和船只。而现在,是时侯把人工智能看作一种新型引擎了。

在 MidJourney,我们正试图用这种引擎来打造一种新型的载体,这载体不是交通工具,而是承载我们的思维和想象力的载体。

就像你可以用足球转动世界,但仍需要腿去踢球一样。我们希望能创造一种新型的载体,你可以用它来进行想象,而不仅是产生运动。在我们创造之前,我们必须首先去想象,想象我们能成为什么,我们可以去哪里,什么是可能的。我认为我们制造的工具,比任何东西都更专注于放大想象力的原初力量。我们有机会放大的不仅仅是任何个体,而是整个人类种族的想象力。我曾多次随Leap Motion(手势识别设备)访问过中国,Leap Motion的第一个办公室就在上海。上海有一种特殊的感觉,我非常喜欢,它似乎是旧金山、洛杉矶、纽约以及一些欧洲老城市的组合体。它拥有一种古老历史和文化的力量,同时也有一种未经雕琢的未来感。这真的很酷,这是我最喜欢的两件事。

事实上,我基本上是个科幻小说的狂热读者,而我看到的最疯狂的设定来自于中国古典文学。我认为古代中国文学拥有人类历史上最美丽、最深沉的思想。MidJourney(中道)这个名字实际上源于我最喜欢的一个古老道家文本的翻译,它出自《庄周》。比如《庄周梦蝶》、《子非鱼》、《庖丁解牛》、《不材之木》、《空舟》,我喜欢这些。我喜欢MidJourney这个名字的原因是,我觉得人们有时容易忘记过去,可能会感到迷茫,对未来感到不确定。但我更多的是觉得我们其实是在中途旅程,我们来自丰饶美丽的过去,前方是荒野而不可思议的未来。

我们最近发布了Mid Journey 5.2版本,现在正进行着5.3版本的开发。之后我希望能发布一个重大更新版本,我希望称之为版本6。我们引入的最新特性是关于图像的缩放,并在你缩小的同时,可以创造不同的故事和环境,围绕中心主题进行变化。这周我们将发布一个类似的功能,它允许你移动相机,然后当你横向移动相机时,可以不断改变提示,然后讲述故事,我们还发布了这个奇特的控制系统,可以结合这些新功能来更好地控制图像生成。

你也可以将其与风格控制相结合。“风格控制”略有点混淆,但是这个想法是,你想要告诉AI想生成多美的产物,你要承担多大的风险来制造这种美。哪怕它是非常规的,混乱的,奇特的,但有时结果真的非常出色。

有时你需要勇于冒险,这让人们可以控制风险性和美的随机性之间的平衡,或者是平衡对图像的常规普遍美予以多少关注。我们还引入了一种我们称之为涡轮模式的东西。涡轮模式就是我们尽可能多地使用GPU,使图像产生非常快。这让生成的速度提升了4到5倍。这个模式让你好像在用64个或100个以上的GPU去生成图像。能达到这个算力,你的计算机大概得值50万美元。这听起来多少有点疯狂,而我们还在研发更疯狂的技术。虽然它们大部分还在酝酿之中,但我们认为随着时间的推移,Midjourney将发展为不仅能创造二维图像,而且能创造三维图像,动态图像,你甚至可以与像素本身交互。在将来也许你能实时回流和重塑的你画出来的东西。

人们只需要这样一个庞大的AI处理器,然后它就可以梦想所有的不同世界,而且梦想可以与我们的思维互动。而我们从某种意义上是通过它(AI)在做梦,那将是真正酷的事。Diffusion模型、Transformer模型、Clip模型的依次发现,实际上让AI开始进入图像空间。大约在2年前,任何图像AI服务都还没有出来时,我们所有的研究者在旧金山交流,我记得我当时说这些模型,特别是Diffusion模型的横空出世肯定会带来完全不同的东西。还有生成对抗网络技术,这是大家在之前用来制作图像生成的基本技术。

我只记得每个人都以一种不寻常的方式立刻点头,说Diffusion模型真的不一样。那一时间气氛非常严肃,我有了一种必须参与其中,并给这个技术带来更人性化的用户界面的强烈感觉。

但是关于未来,我们很难确知技术会如何发展。有时我们会谈论现在如何将语言模型转向Diffusion模型,也即使用Diffusion模型来制作文本。或者说图像模型会变得更像语言模型。这到底怎么达成呢?这种方式的技术术语是自回归Transformer,或者说AI会向着混合模型发展。但这真的很难说。我认为我们只是在这场变革的开端,但我百分之百确定还有很多进步要去取得。比现在十倍,一百倍的进步很可能是必然的。

这种进步不仅体现在性能上,而且体现在让我们更好使用这些技术的用户界面和产品上。无论是个体还是集体都可以制造出真正酷的东西,可以更好地解决问题。道格拉斯·恩格尔巴特是第一个创建文本编辑器的人。最初,人们是通过打孔卡或卡片上的打孔来编程计算机。但道格拉斯开始思考,如果我们用计算机编程计算机会怎样,这在那时候听起来很疯狂。他的想法是,通过在计算机上编程计算机可以加速这个循环,使我们做的更好,使计算机更强大,放大一切。这种想法最终实现了。尽管我们有这些不同的文化,比如AI,人机界面,智能应用文化,我认为到目前为止技术上的大部分进步都来自于试图让人变得更好,试图放大人的能力。

我们还没有真正看到AI时代降临,在那时我们会有独立的AI去解决问题。但如果我们过多地考虑朝着那个方向发展,可能会错失技术中现存的很多机会。我不仅思考AI能做什么,而且思考如何在不同的事物之间创造流动性和纠缠。因为工具不应该感觉像一个人,它应该感觉像你自己,你的身体,你的思想的延伸。我在想如何构建这些技术,让人和AI相互交织起来,感觉不像是你正在与艺术家合作,而更像是你在想象一些东西,然后它就出现在屏幕上。很多人在描述我的旅程时,都觉得那些目的地就像是他们思想的一部分。我认为这就是大部分AI应该成为的样子,它应该是我们自身的延伸。

所以我想再次向陈先生和全体观众表示感谢。WAIC非常酷,我希望我能在将来亲自参加,成为这个活动的一部分。我很期待与中国有更多的合作,我记得我在那里的所有美好的亲身经历,希望大家在那里也能享受互动的乐趣。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK