1

Sora发布后,Pika创始人回应:很振奋,我们将直接冲

 7 months ago
source link: https://www.aixinzhijie.com/article/6844840
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
2024-02-18 09:55

Sora发布后,Pika创始人回应:很振奋,我们将直接冲

文章来源:钛媒体

作者:李程程

图片来源:由无界AI生成
图片来源:由无界AI生成

OpenAI刚刚推出的Sora像是一颗炸弹,再一次引爆全球。

作为AI视频模型,Sora可以根据文本指令创建现实且富有想象力的场景,能够生成具有多个角色、特定类型的运动,以及主体和背景的准确细节的复杂场景的高清视频,并且时长可以达到一分钟。

Sora对语言的理解也达到了一个新的层级,使其能够准确地理解提示词,并生成表达充满活力的情感的视频。它建立在过去对DALL·E和GPT模型的综合研究之上,提出了一种新的模型可能。它不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。

重要的是,Sora是一个diffusion transformer,而transformers已经在语言建模、计算机视觉和图像生成等各大领域已经表现出了杰出的扩展特性。

作为一种扩散模型(diffusion models),Sora除了能够根据文本指令生成视频之外,还能够获取现有的静态图像并从中生成视频,准确地动画图像的内容并关注小细节。Sora还可以获取现有视频并对其进行扩展或填充缺失的画面。

FtyK-XoTXfq7U0JwkjMvhDZIDNtz

Sora从大型语言模型中获得灵感,这些模型通过互联网规模数据的训练来获得通用能力。(截图来自OpenAI发布的Sora技术研究报告:Video generation models as world simulators)

OpenAI发布的技术报告认为,Sora的研究结果表明,扩展视频生成模型是构建物理世界通用模拟器一条极具前景的途径。它使人工智能理解和模拟运动中的物理世界,迈向了一个新的高度。

因此,Sora也被认为是AGI实现过程里的重大里程碑事件,而不仅仅只是视频生成。

在Sora发布之前,Runway和Pika都被认为是视频生成赛道的佼佼者。Sora发布之后,很多人认为,它凭一己之力已经轻松“吊打”且即将“干翻”这两家新兴独角兽公司,并对创业者的命运表示担忧。

然而,他们自己对此却似乎兴奋更多于恐惧。Pika创始人郭文景独家回应钛媒体App称,“我们觉得这是一个很振奋人心的消息,我们已经在筹备直接冲,将直接对标Sora。”

此外,郭文景还透露,目前已经在招人了,具体计划暂时还不能对外透露。

Pika Labs成立于2023年4月,同年11月发布首个产品Pika 1.0。Pika1.0能够生成和编辑3D动画、动漫、卡通和电影,并且普通用户还可以对其进行加工,被视为一款零门槛“视频生成神器”。

在与钛媒体创始人赵何娟的【AI新生代】系列对话中,郭文景也曾提到,目前生成式视频发展的一个重要限制是算法的成熟度,这也是Pika的核心主攻方向。

“我觉得视频跟语言模型不太一样,关于语言模型大家已经知道大概的方法,算法其实已经比较成熟了。但视频现在没有很好的算法,它不是一个规模化的问题,不是说现在大家的GPU不够多,很多时候其实是算法上还没有很好的一个思路。”郭文景说。

而此次Sora的发布,也给行业提供了一个非常好的算法思路,可能反倒为Pika这样的领先创业公司提供更成熟算法路线可能。

事实上,面对实力强劲的OpenAI,郭文景也早已做好了准备。早在数月前,赵何娟也曾问过郭文景,在视频生成赛道上最关心的对手是谁,郭文景当时即表示,应该是OpenAI。

作为一个在东亚文化里成长的女生,郭文景大学本科毕业于哈佛,而斯坦福博士尚未毕业就辍学创业。其创立的Pika 1.0版本的demo视频流出之后,即一鸣惊人,它能够生成和编辑包括3D动画、动漫、卡通或者电影风格的视频,并且使用起来也很容易上手。

它还允许用户自己上传视频片段,并使用生成式AI来编辑和重新构建场景。电影质感,动画级特效,Pika 1.0的视觉效果十分炸裂,似乎让普通人都能成为电影导演,即将成为一种可能。

这支最初由4个人组建pika_labs,融资超过5500万美元,几乎所有AI领域的知名早期投资公司都参与了此轮融资。

而就在Pika1.0发布才过去四个月不到,同赛道的Sora的横空出世,在AI视频生成这条路上,又增加了很多变数和可能性。

以下是之前钛媒体创始人赵何娟与Pika创始人郭文景的【AI新生代】对话实录:

当电影梦叠加AI的“魔法”

赵何娟:Hello,Demi,很高兴又见面了,很高兴你能够来到我的直播间,与我们一起来探讨这一波AI浪潮下新生代崛起的话题。作为硅谷最近非常火热的AI生成式视频项目Pika的创始人,外界对你们的讨论也特别多。我想大家应该都会对你的创业,对你本人都会很感兴趣。
我们可不可以先从你自己的经历开始聊一聊,你是怎么从哈佛大学读本科,然后到斯坦福大学读的硕博的?又怎么选择了文本生成视频这个方向来创业的?

郭文景:大家好,我是Demi。我从小就对创意行业比较感兴趣,也因此我选择去斯坦福大学。之前我一直在做AI,两年前加入斯坦福大学读博,我选的方向就是AI for content creation.,用AI做一些内容创作。

我当时跟了两个老师。一个老师是斯坦福大学人工智能实验室的主任Chris Manning,另一个老师之前是用计算机做电影的,他曾经获过两次奥斯卡奖。斯坦福也是一直尝试用AI做内容创作。我也在游戏公司做过一些AI for虚拟人,AI for 3D游戏内容,以及原画的一些的探索。

之所以开始创立Pika,一个是对这个方向比较感兴趣,另外也是我自己特别想做一些电影和视频,但我不是专业的。我曾经跟一些朋友想做一个AI电影,过程让我意识到,虽然现在视频制作已经非常先进,但还是有很多瓶颈。

我觉得AI一定会改变现在视频制作的方式。如果能够用最好的AI技术,去想象未来视频制作的方式,是一件非常有意思的事情。我就开始做Pika这个项目。

赵何娟:你在创立Pika之前,先参加了Runway的AI视频大赛。你现在做的Pika,一个很重要的或者说比较大的竞争对手就是Runway。你为什么去参加Runway的大赛,同时要做一个跟Runway完全竞争的项目?而且,Runway在这个领域里目前还是领先的。

郭文景:我当时参加这个大赛的时候,没有想要做AI视频的公司,纯粹是兴趣。当时我们放寒假,我发现这个比赛就挺有意思的,我想做一个电影。我们当时还找了一个编剧去写这个剧本,也找了一些做AI的朋友和大学同学。

这个过程,让我们意识到现在视频制作还是非常复杂。我们有很多创意是很好的,但并不能很好地实现。我们也用了很多Runway的工具,也用了一些其他的工具,我们发现还有很多空间。

赵何娟:你发现在做视频或者电影创作的时候,深入研究发现制作过程还是有很多瓶颈,主要的瓶颈是哪些?

郭文景:我当时想要把视频的背景变成一些其他的背景,包括几秒钟的视频,就要花掉我好几个小时,电脑还会出错。我想要把一个视频放嵌入到iPad的屏幕,过程也非常复杂。我根据一些教程学了一遍以后,第二遍我就直接忘记了,中间还有可能出错。这应该是比较简单的任务,没想到还需要花这么多时间和精力去做。

我们当时做的电影,找了演员,做的是从真人变成动漫的形式,当时可能还没有任何模型去做,视频到视频的功能。我们其实是用了一些新的论文,去实现的。其实AI能做,但是市面上没有很好的工具。

坚定AI信仰:比起数据,技术才是底气

赵何娟:现在GPT大模型也在不断升级,迭代速度还是蛮快的。可能在你想做那件事情的时候,还没有工具能做,但是可能当你自己去做的时候,发现其他的工具都开始做了。所以,你们来做这件事情的核心竞争力是什么呢?

郭文景:首先,我们还是比较相信自己的技术背景的。我们创始团队有斯坦福博士,团队还有麻省理工等院校的博士,和一些比较非常优秀的本科生,我还是想打造一个比较顶尖的技术团队。

相对Runway来说,我们还有几个不同。关于产品的定位和产品的策略,Runway可能还是更偏向于一些专业的用户。它们推出的很多功能,主要是面向电影制作,或者说电影工作室,更偏于一些专业用户。

但我们想做得更加偏普通用户能用的一些工具。不一定说是要做电影,也可以是帮你编辑一些个人的视频,或者是做一些比较有趣味的视频。

Runway它可能做的范围会更加广一些,比如说3D、语音、agent,各种不同的模型,方式更偏向于有一个新的算法,有新的一些功能。但我们是从视频编辑和视频制作的角度出发。

赵何娟:还有一个很重要的问题是数据。相比Runway这样已经跑在前面的公司,或者是相比其他的一些大的平台,比如说,像迪士尼现在也在做自己的视频生成的相关的模型,你们会不会认为,数据是最难与之竞争的?你们怎么解决数据的问题?

郭文景:数据的确很难与迪士尼竞争。OpenAI是现在最好的语言模型,但是为什么有很多语料库的公司,没有做出最好的语言模型呢?迪士尼也不代表它的数据一定会更好,因为它的数据量比较有限。其实很多语言公司最后还是看技术。

赵何娟:你刚才讲到的另外一个不同,你们的定位不一样。你们更偏向于普通用户,普通消费者,而不是只针对电影制作者这类专业用户。怎么理解你们想要针对普通用户这样的一个定位?像TikTok这样也是针对普通用户,每个人都可以在上面做一段创作或者短视频,是不是你们也会往平台方向去拓展?

郭文景:我们现在没有这方面的想法,我们更多是基于技术之外的一些功能性的开发。

赵何娟:那普通用户怎么用你们呢?他们用Pika,更多是用来做什么呢?

郭文景:我们现在更多是希望用户可以做一些视频的生成和视频编辑。具体的应用,目前我们还是比较开放态度,是让用户去决定。我们现在更多是把技术瓶颈突破。

赵何娟:现在技术突破上最大的一个难题是什么?

郭文景:我觉得视频跟语言模型不太一样,关于语言模型大家已经知道大概的方法,算法其实已经比较成熟了。但视频现在没有很好的算法,它不是一个规模化的问题,不是说现在大家的GPU不够多,很多时候其实是算法上还没有很好的一个思路。

举例子来说,比如现在大部分常用的视频模型,根据设计来讲,它就不可能生成很长的视频,因为它每一帧的图片是一起生成的。它有一些算法上的瓶颈,无法做出我们想象的那种非常长、非常好的视频。它其实还需要一些算法知识上的突破。

赵何娟:接下来的创业里,对于你来说,还会有哪些挑战?

郭文景:AI是高速发展的一个行业,一定会有很多的变化,竞争对手也有很多的变化,整个行业日新月异。更多的挑战是一些不确定的挑战,我们也不知道未来会发生什么。所以,对我们来讲,我们的心态是,这就是没有什么挑战。

现在我们更多的是想建立一支比较好的团队。没有什么挑战是不能克服的。可能有些挑战更难一些,你花的时间需要更多,去探索,去找到一个解决方案。

赵何娟:你之前是对AI和创作感兴趣,但你与团队在磨合的过程,或者在组建团队的过程里,发现就凭兴趣做事,和做公司之后,感受有什么不一样的吗?

郭文景:我们很幸运的一点是,我们做的公司,就是我们的兴趣。我就是目标用户。我有时候工作闲的时候,就会去用我们的产品,去做一些视频。包括我们最早的一些市场向的视频,就是我做的。

我们比较幸运的一点,是因为我们对自己的这个方向特别感兴趣。所以,我们的团队也是相对比较有活力,都是属于比较有自主动力的人,而且团队还比较小。创业是最幸福的事情,在做自己最想做的事情,而且跟一群我们觉得非常优秀,同样对这件事感兴趣的人一起做这件事情。

赵何娟:你们的投资机构,光速创投的合伙人Michael,他说,Pika团队是他见过行动力最快的团队,我不知道你怎么看待这个评价?

郭文景:我们团队一直比较看重执行的效率,这可能也是小团队的一个优势。

赵何娟:我们再来聊聊趋势。之前我有看到英伟达的科学家说,2022年是影像之年,2023年是声波之年,2024年是视频之年,你怎么看这个演化的过程?近几年说视频也都好多年了,为什么说今年是视频之年?

郭文景:视频可能现在虽然没有那么完美,但是今年一定会有比较大的突破,因为现在用AI一个做好的视频,需要在prompting,提示词上有一些技术。你可能需要在这方面比较有经验,就能做比较好的视频。但如果你没有很有经验,就不能做出很好的视频。

这是因为现在视频模型还没有那么成熟,但我们觉得马上会非常成熟。

今年可能就可以做出产品,是能够让所有人不需要有很多的经验,就能够做很好的视频。

赵何娟:接下来也想聊一聊你对整个AI的行业的一些判断。你怎么看待最新的这一波的AI革命浪潮,有没有可能有更多的机会也是你感兴趣的?除了你现在做的视频之外,你接下来还有没有哪些想法?

郭文景:我非常相信AI浪潮。我知道很多人可能会觉得AI浪潮实在有点太火了,或者是有一些过度,有些泡沫。但我们还是很相信的。不管说这个热度是否过火,但是技术真的是有突破。我们也相信,未来AI一定会改变很多行业,很多的应用,包括应用的一些使用。这个是毋庸置疑的。可能包括视频制作或者说音乐制作,购物方式,AI都会对传统的方式有颠覆。

“别人家的女儿”是如何长成的?

赵何娟:你做这个的事情,你家人怎么看呢?

郭文景:我家人还挺支持我做任何我想做的事情的。

赵何娟:Pika创业项目出来之后,你们公布了融资信息,又发布demo,大家也都非常关注你的家庭背景,都说这是“别人家的女儿”。
所以,从你自己角度来说,你觉得家庭的教育,对你不管是求学,还是创业的想法,起到了什么启发或者作用?一个这么优秀的女孩子的成长,一个很好的家庭教育还是很重要的,或者是起到了很至关重要的作用。

郭文景:我觉得我还是挺幸运的,我的整个成长经历,也挺感恩,不管是对我的老师,或者是家里人。因为我从小一直对创意行业比较感兴趣,我小学的时候,其实是想做一个作家,想要追求一些文艺的梦想,包括我家里人,其实当时特别希望我能走一些文艺的路线。我当时坚持要做编程这条路线的时候,我还跟我父母大吵了一架。我有姐姐和妹妹,她们是做的偏这个艺术方面的一些工作。

赵何娟:你小时候那么喜欢写作,什么时候开始又开始对编程感兴趣的?是什么触发你突然对编程感兴趣了?

郭文景:我当时特别喜欢诗歌。我小时候喜欢写作,喜欢看诗歌、散文集。我特别喜欢一些比较抽象的诗歌,一些带有隐喻的散文,结构上的设计上比较巧妙的诗歌和散文。

当时接触到编程,也是纯粹觉得非常有意思。五六年级的时候,刚好家里有一本书讲的是LOGO程序语言,是一个小乌龟画画的一个语言。当时暑假没事儿干,看了这本书,就学会了这个LOGO语言。你可以通过编程的方式,去做一些创作。

程序跟诗歌还是有一些共通之处的,是需要去设计的。比如说,结构化的编程,你需要设计一下,函数怎么搞,结构怎么搞。但它与诗歌不一样的点是,你最后的输出的这个东西,是可以交互的。

赵何娟:你可能在小学的时候接触编程是玩儿,但是,在成长的过程之中,比如说,中学之后就要开始想专业方向。你在专业方向选择的时候,为什么没有选文艺那条路?比如说,去学文学或者是学艺术相关的,而是完全走上了这个计算机科学这条路。

郭文景:我其实到初中、高中以后,就逐渐喜欢上了编程。纯粹是个人兴趣,没有想到编程会对我升学有帮助。当时每天要先好好做作业就开始去编程。编程与文学不一样的有意思的点是,编程真的能做一些应用,一些实际上的大家都能用的一些应用。我觉得这件事情非常的magical。

大学也是兴趣导向的。我大学本科修的是数学。但是,我同时也与一些博士生一起,上一些计算机的课。在哈佛修的是数学学位,同时拿了一个计算机的研究生学位。我在哈佛也上了很多人文课。

前两年,我就把计算机和数学的学位拿到了。后面两年,其实我主要都在上人文课,关注文艺的一些事情。

赵何娟:这个也蛮有意思的,不管是计算机还是文艺,都是你的兴趣。然后,你现在就把这些不同的兴趣,通过创业,把它结合起来了。

郭文景:这是两个不同方向的兴趣。大一时候,我就开始接触AI。因为当时觉得AI像是一种魔法,AI这么神奇,这么powerful。比如说,AI当时能够做人脸检测之类的,我觉得非常不可思议。对AI也感兴趣,对艺术和创作一直都很感兴趣,我很难找到一个更让我觉得更有意思的事情。

赵何娟:你从哈佛学习,又来到了斯坦福。这两所学校,一个在美东,一个在美西。你觉得这两所大学对你来说,以及你在这两所学校里收获的东西,有什么不一样么?

郭文景:两者不同的话,其实很难说。主要是本科经历和博士经历不是很一样。大学可能会更广一些,更注重一些探索,可能会修不同的领域的课,会认识不同领域的人,但博士可能更偏专业一些。

赵何娟:美东的文化和硅谷的文化相比,差异其实也蛮大的。在你看来,这两所学校的教育模式、创新,或者与企业界的联合的方式,有什么不一样?你会更受益于哪一种?你的创业可能会更受益于哪一种?

郭文景:其实挺难对比的。每个学校环境不太一样。可能在哈佛,在美东,大部分的朋友都在搞金融,但是,斯坦福会有更多同学对创业感兴趣。

斯坦福有很多计算机的课,计算机与其他学科结合的课也非常多。哈佛与计算机相关的,没有几个课,我们当时要上一些博士level的课,可能也就二十几个人。甚至,我当时还在MIT上了一节课。

其实计算机相关的,在哈佛也是第二大的学位。在哈佛很多学习计算机的人,后来也没有去做计算机相关,很多人去做股票、咨询或者产品经理之类的工作。

赵何娟:斯坦福的创意氛围更浓,斯坦福大学也有很多辍学创业的,都还比较成功。你的前辈们在硅谷各领风骚好几年。过几年,又会有一波新兴的创业新秀起来。这也与硅谷和斯坦福独特的文化有很大的一个关系。
你当时怎么就下定决心,决定辍学去创业的?尤其你是从小成绩就很好,是家里的掌上明珠,为什么有辍学这个跟你之前的人生可能很不一样的决定?

郭文景:相比读博来讲,我个人对创业会更感兴趣。我其实在哈佛从中间也辍学了一年,再回去读的。我当时大二的时候,在Facebook就是现在Meta全职工作了一年,在AI研究实验室,主要是感兴趣。对创业比较感兴趣,是因为我觉得还能做一些应用。

我比较喜欢追求自己热爱的事情。在美国,一些本科生辍学还是挺正常的一件事情。我的幸运的点是我的导师。包括我的博士的导师,都特别支持我。他们在学术上都非常资深,一个是斯坦福人工智能实验室主任,一个是获得了两个奥斯卡奖。我博士的导师,现在是我创业的导师和顾问。现在我还是会定期去见他们。

赵何娟:他们怎么看待你现在这个创业项目的?

郭文景:他们非常支持。我当时跟我一个导师说了这个事情,他马上在电话上直接说支持我。他说,聪明的人就应该去做自己想做的事情。我觉得非常幸运,我也非常感恩我的导师,他在一些技术上的知识都会支持。现在,他还是会跟我们进行一周一次的技术上的指导。我的导师也会觉得,快乐最重要。

赵何娟:特别感谢Demi,Demi是一个很真实、率真,可爱的姑娘。也有很多年轻一代的人,看到AI这个大浪潮来了。能不能请你给你的同龄人一些方向性的建议,如何把握到这次机会?

郭文景:也不能说给什么建议,可以分享一下我个人的想法。我觉得其实很多时候,还是要追求自己的内心想做什么,还是要追求自己的个人的兴趣。大家的人生只有一次,要做自己热爱的事情,只有做自己热爱的事情,才能做得到最好。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK