3

OpenAI的视频生成模型Sora令影视业倍感惶恐?

 7 months ago
source link: https://www.lanjinger.com/d/227391
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

OpenAI的视频生成模型Sora令影视业倍感惶恐?

原创 蓝鲸财经 王沁 · 2024-02-17 11:18:43 阅 11.2w
这是短视频时代,更是AI的新世代。
185300_awdibwezkzjhq.jpeg@!thumb800

图片来源:视觉中国

北京时间2月16日凌晨,没有任何预告,全球明星AI创业公司OpenAI发布了文生视频模型Sora,首次由AI生成了长达1分钟的多镜头长视频,其对于真实人类世界的高模拟度画面、精细的画质、多镜头拍摄、多角度运镜,表明AI对人类世界的理解、AI生成的创造性内容又上了新台阶。

多方评论认为,科技界与影视界或将迎来新一轮革命。

OpenAI首席执行官Sam Altman顺势在社交平台X上开始招聘:“OpenAI是我在一个地方见过的最有才华、最友善的一群人,致力于解决最困难、最有趣和最重要的问题,所有关键资源均已到位,非常专注于打造 AGI(通用人工智能),你也许应该考虑加入我们。”

而OpenAI的消息还不止于此。2月17日,据《纽约时报》和彭博社等媒体报道,OpenAI已完成一项允许员工出售公司股份的最新交易,使得这家AI明星公司的估值达到了860亿美元。

对电影行业的影响只是时间问题

远隔重洋,中国影视从业者也感到了巨大冲击。一位青年导演在2月16日发朋友圈说:“今日,大家正为AI的进步会在不远的将来抢走饭碗而倍感惶恐。”

1708167893552_djzjodjjwcygi.jpeg@!thumb800

Sora生成的视频中,主角脸上的雀斑清晰可见。图片来源:OpenAI官网

中国香港青年导演朱智立告诉蓝鲸财经记者,“它(Sora)对电影行业的影响只是一个时间问题,因为它已经把画面做到非常真实、有细节,包括一个女人在东京街头的画面,连脸上的雀斑都能做到非常真实。”

朱智立向蓝鲸财经表示,Sora对宣传片、广告片的影响会更大,“电影还有剧本、情节、台词等复杂因素,而在广告、宣传片行业,冲击可能会更快到来。如果提示词可以细节到分镜,那AI不仅仅是帮助导演画分镜和视觉参考图了,而是直接可以做成更高效的动态分镜预览,或者等技术更成熟时可以直接用来做成影视作品。”

虽然朱智立仍能在Sora生成的视频中发现一些bug(问题),但他认为修复这些bug只是时间问题,“有个视频是一个老奶奶吹蜡烛,但是蜡烛没有熄灭,意味着在情节的因果关系上有些bug。但几个月前Pika(另一家AI视频生成创业公司)才只能生成几秒钟的视频,当时我申请Pika账户,现在还没申请下来,几个月后Sora就出来了,能生成一分钟的视频。这些bug修复、技术迭代只是时间问题,可能比我们想得还要早。”

目前在影视界,特别是动画电影中,用文生图模型Midjourney来画前期动态分镜预览已很广泛。Previz(Previsualization,动态预览)是指在正式拍摄之前将拍摄内容简单制作一遍,用简单动画展示出演员走位、取景、摄影机角度与运动大方向,这原本是要一笔不小的预算和时间的,但AI可以低成本快速产出。

目前,朱智立正在筹拍的新电影就使用了Midjourney画分镜,对一些电影场景如七八十年代的香港码头、上海理发店的还原度很高,放到了他的电影项目书里,作为重要场景的视觉参考,“比导演用嘴巴去讲、自己用手画分镜要好很多。”

1708167088938_oxtishkyqeupx.jpeg@!thumb800

朱智立用Midjourney生成的电影场景图。图片来源:受访者提供

据《财经十一人》报道,目前不少视频创作者在以周为单位学习AI软件,全流程用AI制作视频,甚至拿到品牌商单。动画导演、兔斯基作者王卯卯强迫自己每周学2-3个AI软件,在学习了4个月AI后,她动手用AI制作视频了,从开始有创作想法,到生成主视觉图、生成动画,再到剪辑、加字幕,一个30秒的预告片只用了3个小时。

据报道,小红书博主@吴志气已经用AI制作多条商业广告,已经有品牌在接触AI视频创作者。他收到的最高报价是8000元/秒,听过的最高报价达到了10000元/秒。不过目前报价的底线也可以很低,有的只有500元/秒。

虽然很多影视、广告从业者感到了被AI抢饭碗的危机,但360公司创始人周鸿祎则发文表示:“今天很多人谈到Sora对影视工业的打击,我倒不觉得是这样,因为机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给提示词。一个视频或者电影是由无数个60秒组成的。今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为 TikTok的创作工具。”

也有些内容生产领域对AI持审慎态度。刘先生目前在北京一家电视台担任视觉创意设计师,他在工作中不会用到AI,一方面是不能使用VPN,一方面单位会顾虑存在黑客盗取AI数据库的风险,“任何事情要首先考虑安全。”

力大砖飞的技术

Sora可以生成长达60秒的视频,此前文生视频时长最长的是另一家人工智能公司Runway,支持最多18s视频生成,镜头相对固定。由中国上市公司之女创立、曾引起A股轰动的Pika,此前生成视频长度在3秒左右,是单镜头,与其说是视频,更像是动图。

而OpenAI此次发布的Sora生成的视频有丝滑的移动运镜、场景转换,还可以自行分镜、切换景别,这意味着Sora可能让普通人以极低的门槛制作自己的电影。

另外,此前的文生视频模型,由于是生成单镜头,一旦输入新提示词,就会生成新镜头,主角就会变换,在实际的视频创作中有困难。而Sora生成的视频,在视角转换、镜头景别切换后,仍保持主体的一致性。

OpenAI官网介绍,“Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。”这意味着,如果说GPT能通过人类的语言来理解世界,那么Sora则能通过视频、图片等多模态数据来理解世界。

1708168081423_zjuzmondublug.png@!thumb800

Sora模型的patches示意图。图片来源:OpenAI

Sora把视频和图像分解为较小的数据单元——“patches(小块)”,每个“patches”相当于GPT中的一个token(语句),这种编码十分灵活,通过patches来训练Sora模型。Sora使用了Diffusion扩散模型,它最初生成的视频看起来像静态噪声的视频,然后通过一步步消除噪声,来转换成清晰视频。据知危报道,相比于GAN生成对抗网络,Diffusion扩散模型像是一个勤奋且聪明的画家,并不是机械的仿作,在学习大量先作的时候,学会了图像内涵与图像之间的关系。

根据OpenAI的技术报告,Sora的强大得益于足量的数据、灵活的编码、优质的标注和Transformer+diffusion的架构。

据互联网程序编程算法领域博主宋博宁分析,以往此类模型对视频的处理往往会分解为时间域和空间域,用处理时间域的模型处理时间域,比如RNN、自回归模型等。但从报告来看,这次OpenAI直接把整个视频看做一个整体,一次性输入到diffusion模型中,让模型一次性生成出整个视频的每个细节。这样需要对视频进行压缩,但一次输入的数据量仍远远超过目前大模型支持的上下文长度。训练这样一个Diffusion Transformer模型需要巨大的计算成本。

既然训练模型这么烧钱,而芯片又是AI成本的大头,一直狂飙猛进的OpenAI也试图下场布局芯片了。不久前,据华尔街日报2月8号报道,Sam Altman正在与包括阿联酋在内的投资者进行谈判,以筹集数万亿美元资金,旨在提高全球芯片制造能力。其中一位知情人士表示,该项目可能需要筹集多达5万至7万亿美元的资金。据华盛顿邮报1月底报道,Sam Altman与美国国会议员讨论芯片制造业务,或与台积电等芯片制造公司合作。

芯片巨头英伟达在2024年开年短短一个半月时间,股价已经上涨46.63%,近一年更是上涨351.76%。截至2月16日,英伟达总市值接近1.8万亿美元,超过亚马逊和谷歌,仅次于微软、苹果和沙特阿美,为全球市值第四大公司。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK