AI 视频新王者诞生！一文盘点 Sora 模型 14 项功能特点！ - 优设网 - 学设计上优设 - JOYK Joy of Geek, Geek News, Link all geek

大家好，我是花生~

2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora，它可以根据文本生成 60s 的高质量视频，完全突破了之前 AI 文生视频存在的各种局限，所以一出现就引起广泛关注和热烈讨论，大家应该对它都有所了解。今天就根据网上已公布的视频，对 Sora 的功能特性进行一个盘点总结，其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比，让大家对 Sora 的能力有一个更直观全面的了解。

降维式打击！像素级拆解文生视频大模型Sora

Openai 发布了它的文生视频大模型 Sora。

阅读文章 >

一、60s 超长视频

之前优设已经推荐过 AI 视频工具，比如 Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video 等，它们文生视频长度都在 3-7 秒之间（Aminatediff 和 Deforum 因形式不同，不列入此处的比较），而 Sora 直接将时长最高提升到 60s，是之前的 10 倍，这样的长度是放在之前大家可能觉得要好几年才能实现，但是 Sora 让其一夜之间成为现实。

视频来源：Twitter@ Gabor Cselle

二、超高的文生视频质量

接触过 AI 视频生成的小伙伴肯定清楚，文本生成的视频效果最难控制，很容易出现画面扭曲、元素丢失情况，或者视频根本看不出动态。所以不少 AI 视频工具都转向在图生视频或者视频转绘上发力，比如 Runway 的 Motion Brush 笔刷，通过在图像上涂抹指定区域添加动效；以及 Domo AI，可以将真实视频转为多种不同的风格，这些方式让 AI 视频更可控，因此质量更好。

而 Sora 的出现则完全颠覆了人们对文生视频的认知，不仅直接能通过文本生成各种风格的高清的视频，还支持多样化的视频时长、分辨率和画幅比，并且能始终保持画面主体位于视频中央，呈现出最佳构图。

Sora 根据一组提示词生成的三组不同画幅的视频

三、连贯一致的视频内容

Sora 生成的视频中，随时长增加人物及场景元素依旧能保持自己原有原有的状态，不会扭曲变形，所以视频前后连贯性非常好。即使元素被遮挡或者短暂离开画面，Sora 依旧能在后续准确呈现这一对象的相关特征。这就解决了之前大家一直很关心的视频中人物一致性问题，也许之后我们就无需后期拼接，而是仅凭文本就生成一个剧情完整的短视频了。

四、多视角稳定呈现

Sora 能针对一个场景或者一个主题进行多视角呈现，比如针对“下雪天的街道”主体，可以同时生成手部玩雪特写、街道元素特写、行人走动中景、街道全景等分镜。

下面是从 Sora 视频中截取一段，可以看到随着镜头旋转，新视角中无论是机器人还是背后环境的细节都能稳定呈现，如同 CG 建模一样精准。之前为大家介绍过 Stable zero 123，一种可以生成多视角图像的 AI 模型，但效果远比不上在视频中的呈现，也许 Sora 能为我们提供一种生成角色三视图的新方法。

五、自然流畅的动态

推特网友 @Poonam Soni 制作的了几组 Sora 与 Runway 的效果对比。无论是小狗打闹、云朵的飘动还是袋鼠跳舞，Sora 的动态都非常自然，就像我们在现实中看到的那样；相比之下 Runway 生成的动作总有一种 “慢放”的感觉，不够自然。

六、逼真的镜头运动

在 Runway、Pika 等工具中，如果想实现镜头运动，需要使用额外的 --motion 参数，然后从平移、旋转、缩放中等选项中选一种。而 Sora 中可以直接列理解文本提示词中有关视频的镜头运动，比如提示词中是 “镜头跟在一辆白色复古越野车后面”，在长达 20s 的视频内，无论道路如何弯曲，镜头真的能始终跟随这汽车，让其处于画面中央。Sora 也能在一个视频中使用多种镜头运动。

即使没有镜头提示，Sora 也能主动地添加镜头动作，比如下面的视频，花盛开到快超出屏幕时，镜头会自动上移时。以展现完整的主体；以及镜头有聚焦在老人面部时，带着一种手持拍摄的抖动，这是用 motion 设置也无法得到的效果，让人感觉这是真的视频而非“会动的图片”。
https://twitter.com/i/status/1758295719788822866

七、准确的提示词理解

对于“船在咖啡杯里”、"用白炽灯做壳的寄居蟹" 这样比较复杂的概念，Sora 能准确理解并呈现出正确的视频，Runway、Pika、Morph 等目前则无法做到。在 Sora 的研究报告中，官方提到他们会利用 GPT 将用户的简短提示转换成更长的详细说明，然后发送给视频模型，以得到更好的生成效果。

视频来源：twitter@ @Poonam Soni

八、图生视频

Sora 虽然自称是文生视频模型，但它也可以将图像转为动态视频，而且动态效果比其他 AI 视频都好，还不会出现转换后画质下降的情况。Sora 的图生视频功能并不是简单的为已有元素添加动态，还能生成新的内容（比如为云彩字添加了一个弹出的动效）。

视频来源：twitter@ Anu Aakash

九、用文本编辑视频

Sora 可以仅通过文本对视频进行编辑，对一个写画风视频加上 “rewrite the video in a pixel art style” 提示，可以将其变为像素飞哥，加上 ““make it go underwater”可以替换画面元素，而且新元素与整体融合自然然。之前图像进行局部重绘都是有些困难的事，Sora 这是直接做到了对视频内容的完美局部重绘，模型的能力真的令人惊叹。

十、生成完美循环动画

Sora 支持在一个视频的基础上生成向前或向后延伸生成新内容，并且做到无缝衔接。下面 2 个视频是由同一段视频向前扩展得来的，所以结尾相同；而如果对一个视频同时操作向前和向后延伸，就能好得到一个完美的循环动画。这项功能目前还没有其他能实现的 AI 工具，如果能落地对创意视频生成肯定非常有帮助。

十一、无缝衔接视频

Sora 可以在两个视频之间逐步插值，在主题和场景构图完全不同的视频之间创建无缝过渡，比如由真实的海岛变为一个 3D 卡通风格的微缩雪地村庄，或者让一只蜥蜴慢慢变成一只鸟。官方用的 “无缝过渡” 绝不是夸张，仔细看视频你会发现 sora 真的会自己找角度让视频转换更自然，这点在影视特效制作上应该也大有可为。

十二、文生图

图像就是单帧的视频，Sora 既然能生成高质量的视频，那生成高质量的图像自然也不在话下，并且支持多种尺寸，最高分辨率到达 2048*2048 px。我用 Sora 官方给出的提示词，在 Midjourney 的 V6 模型中重新生成一遍，下面的效果对比，你觉得哪一个更好？

十三、模拟真实世界的交互

Sora 可以模拟真实物理世界中物体的运作状态，比如画笔落下后画布上有对应的痕迹留下，并且持续保留；被咬了一个口的汉堡上会有一个缺口等。不过这个功能并不稳定，处理复杂交互场景也会出错，或者混淆空间细节。

十四、模拟虚拟世界

在 Sora 的提示词中加上 Minecraft 后，除了视频会变成体素风格，Sora 还能通过基础策略控制玩家，并高保真地呈现世界及其动态，达到真假难辨的地步。这或许会改变视频游戏的制作及玩法，对 AR、VR 的虚拟空间搭建应该也会有帮助。

那么以上就是本期为大家盘点的 AI 视频生成模型 Sora 的相关功能，如果想了解为什么 Sora 能做到这么厉害，可以去阅读 OpenAI 官方的研究报告，里面有相关介绍。

Sora 模型技术报告： https://openai.com/research/video-generation-models-as-world-simulators

想了解更多 AI 绘画工具的话，欢迎关注优设 AI 自学网，每天都有最新的 AI 神器及资讯推荐 ~ 也欢迎大家扫描下方的二维码加入“优设 AI 绘画交流群”，和我及其他设计师一起交流学习 AI 知识~

效率翻倍！ComfyUI 必装的工作流+模型管理插件 Workspace Manager

阅读文章 >

Prompt 灵感！8 组高质量元宵节 Midjourney 提示词！

大家好我是花生~ 再过几天就是正月十五元宵节了，整理了 7 组元宵节主题的 Midjourney 提示词, 希望对大家做设计有帮助~ 相关推荐：一、3D 人物素材 A cute chinese girl, Wearing traditional Chinese clothes.

阅读文章 >

AI 视频新王者诞生！一文盘点 Sora 模型 14 项功能特点！ - 优设网 - 学设计上优设

降维式打击！像素级拆解文生视频大模型Sora

一、60s 超长视频

二、超高的文生视频质量

三、连贯一致的视频内容

四、多视角稳定呈现

五、自然流畅的动态

六、逼真的镜头运动

七、准确的提示词理解

八、图生视频

九、用文本编辑视频

十、生成完美循环动画

十一、无缝衔接视频

十二、文生图

十三、模拟真实世界的交互

十四、模拟虚拟世界

效率翻倍！ComfyUI 必装的工作流+模型管理插件 Workspace Manager

Prompt 灵感！8 组高质量元宵节 Midjourney 提示词！

Recommend

英特尔第 13/14 代处理器设备运行虚幻引擎游戏崩溃？原因找到了

英伟达盘后大涨第四财季财报营收同比增长265%

So, You Want to Host a CodeJam! Everything you nee... - SAP Community

Extension fields in employee time sheet in Busines... - SAP Community

美国多家移动运营商网络中断数万名用户无法接打电话

小米平板6SPro官宣发布，起售价3299元

如何打造聊天场景的极致沉浸感

业绩远超预期，英伟达盘后大涨10%；谷歌宣布 Gemma 大模型全球开放使用；华为首超苹果...

6499元起，小米14 Ultra发布：钛金属+卫星通信 | 3299起的小米平板6S Pro与Redmi Book...

SAP Datasphere Replication Flow from S/4HANA to Azure Data Lake

About Joyk