2

AI 视频新王者诞生!一文盘点 Sora 模型 14 项功能特点! - 优设网 - 学设计上优设

 6 months ago
source link: https://www.uisdc.com/sora-2
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
AI 视频新王者诞生!一文盘点 Sora 模型  14 项功能特点!

大家好,我是花生~

2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora,它可以根据文本生成 60s 的高质量视频,完全突破了之前 AI 文生视频存在的各种局限,所以一出现就引起广泛关注和热烈讨论,大家应该对它都有所了解。今天就根据网上已公布的视频,对 Sora 的功能特性进行一个盘点总结,其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比,让大家对 Sora 的能力有一个更直观全面的了解。

相关推荐:

一、60s 超长视频

之前优设已经推荐过 AI 视频工具,比如 Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video 等,它们文生视频长度都在 3-7 秒之间(Aminatediff 和 Deforum 因形式不同,不列入此处的比较),而 Sora 直接将时长最高提升到 60s,是之前的 10 倍,这样的长度是放在之前大家可能觉得要好几年才能实现,但是 Sora 让其一夜之间成为现实。

视频来源:Twitter@ Gabor Cselle

二、超高的文生视频质量

接触过 AI 视频生成的小伙伴肯定清楚,文本生成的视频效果最难控制,很容易出现画面扭曲、元素丢失情况,或者视频根本看不出动态。所以不少 AI 视频工具都转向在图生视频或者视频转绘上发力,比如 Runway 的 Motion Brush 笔刷,通过在图像上涂抹指定区域添加动效;以及 Domo AI,可以将真实视频转为多种不同的风格,这些方式让 AI 视频更可控,因此质量更好。

而 Sora 的出现则完全颠覆了人们对文生视频的认知,不仅直接能通过文本生成各种风格的高清的视频,还支持多样化的视频时长、分辨率和画幅比,并且能始终保持画面主体位于视频中央,呈现出最佳构图。

Sora 根据一组提示词生成的三组不同画幅的视频

三、连贯一致的视频内容

Sora 生成的视频中,随时长增加人物及场景元素依旧能保持自己原有原有的状态,不会扭曲变形,所以视频前后连贯性非常好。即使元素被遮挡或者短暂离开画面,Sora 依旧能在后续准确呈现这一对象的相关特征。这就解决了之前大家一直很关心的视频中人物一致性问题,也许之后我们就无需后期拼接,而是仅凭文本就生成一个剧情完整的短视频了。

四、多视角稳定呈现

Sora 能针对一个场景或者一个主题进行多视角呈现,比如针对“下雪天的街道”主体,可以同时生成手部玩雪特写、街道元素特写、行人走动中景、街道全景等分镜。

下面是从 Sora 视频中截取一段,可以看到随着镜头旋转,新视角中无论是机器人还是背后环境的细节都能稳定呈现,如同 CG 建模一样精准。之前为大家介绍过 Stable zero 123,一种可以生成多视角图像的 AI 模型,但效果远比不上在视频中的呈现,也许 Sora 能为我们提供一种生成角色三视图的新方法。

五、自然流畅的动态

推特网友 @Poonam Soni 制作的了几组 Sora 与 Runway 的效果对比。无论是小狗打闹、云朵的飘动还是袋鼠跳舞,Sora 的动态都非常自然,就像我们在现实中看到的那样;相比之下 Runway 生成的动作总有一种 “慢放”的感觉,不够自然。

六、逼真的镜头运动

在 Runway、Pika 等工具中,如果想实现镜头运动,需要使用额外的 --motion 参数,然后从平移、旋转、缩放中等选项中选一种。而 Sora 中可以直接列理解文本提示词中有关视频的镜头运动,比如提示词中是 “镜头跟在一辆白色复古越野车后面”,在长达 20s 的视频内,无论道路如何弯曲,镜头真的能始终跟随这汽车,让其处于画面中央。Sora 也能在一个视频中使用多种镜头运动。

即使没有镜头提示,Sora 也能主动地添加镜头动作,比如下面的视频,花盛开到快超出屏幕时,镜头会自动上移时。以展现完整的主体;以及镜头有聚焦在老人面部时,带着一种手持拍摄的抖动,这是用 motion 设置也无法得到的效果,让人感觉这是真的视频而非“会动的图片”。
https://twitter.com/i/status/1758295719788822866

七、准确的提示词理解

对于“船在咖啡杯里”、"用白炽灯做壳的寄居蟹" 这样比较复杂的概念,Sora 能准确理解并呈现出正确的视频,Runway、Pika、Morph 等目前则无法做到。在 Sora 的研究报告中,官方提到他们会利用 GPT 将用户的简短提示转换成更长的详细说明,然后发送给视频模型,以得到更好的生成效果。

视频来源:twitter@ @Poonam Soni

八、图生视频

Sora 虽然自称是文生视频模型,但它也可以将图像转为动态视频,而且动态效果比其他 AI 视频都好,还不会出现转换后画质下降的情况。Sora 的图生视频功能并不是简单的为已有元素添加动态,还能生成新的内容(比如为云彩字添加了一个弹出的动效)。

视频来源:twitter@ Anu Aakash

九、用文本编辑视频

Sora 可以仅通过文本对视频进行编辑,对一个写画风视频加上 “rewrite the video in a pixel art style” 提示,可以将其变为像素飞哥,加上 ““make it go underwater”可以替换画面元素,而且新元素与整体融合自然然。之前图像进行局部重绘都是有些困难的事,Sora 这是直接做到了对视频内容的完美局部重绘,模型的能力真的令人惊叹。

十、生成完美循环动画

Sora 支持在一个视频的基础上生成向前或向后延伸生成新内容,并且做到无缝衔接。下面 2 个视频是由同一段视频向前扩展得来的,所以结尾相同;而如果对一个视频同时操作向前和向后延伸,就能好得到一个完美的循环动画。这项功能目前还没有其他能实现的 AI 工具,如果能落地对创意视频生成肯定非常有帮助。

十一、无缝衔接视频

Sora 可以在两个视频之间逐步插值,在主题和场景构图完全不同的视频之间创建无缝过渡,比如由真实的海岛变为一个 3D 卡通风格的微缩雪地村庄,或者让一只蜥蜴慢慢变成一只鸟。官方用的 “无缝过渡” 绝不是夸张,仔细看视频你会发现 sora 真的会自己找角度让视频转换更自然,这点在影视特效制作上应该也大有可为。

十二、文生图

图像就是单帧的视频,Sora 既然能生成高质量的视频,那生成高质量的图像自然也不在话下,并且支持多种尺寸,最高分辨率到达 2048*2048 px。我用 Sora 官方给出的提示词,在 Midjourney 的 V6 模型中重新生成一遍,下面的效果对比,你觉得哪一个更好?

十三、模拟真实世界的交互

Sora 可以模拟真实物理世界中物体的运作状态,比如画笔落下后画布上有对应的痕迹留下,并且持续保留;被咬了一个口的汉堡上会有一个缺口等。不过这个功能并不稳定,处理复杂交互场景也会出错,或者混淆空间细节。

十四、模拟虚拟世界

在 Sora 的提示词中加上 Minecraft 后,除了视频会变成体素风格,Sora 还能通过基础策略控制玩家,并高保真地呈现世界及其动态,达到真假难辨的地步。这或许会改变视频游戏的制作及玩法,对 AR、VR 的虚拟空间搭建应该也会有帮助。

那么以上就是本期为大家盘点的 AI 视频生成模型 Sora 的相关功能,如果想了解为什么 Sora 能做到这么厉害,可以去阅读 OpenAI 官方的研究报告,里面有相关介绍。

Sora 模型技术报告: https://openai.com/research/video-generation-models-as-world-simulators

想了解更多 AI 绘画工具的话,欢迎关注 优设 AI 自学网,每天都有最新的 AI 神器及资讯推荐 ~ 也欢迎大家扫描下方的二维码加入“优设 AI 绘画交流群”,和我及其他设计师一起交流学习 AI 知识~

推荐阅读:


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK