OpenAI发布首个视频生成模型，可生成60秒一镜到底视频

北京时间，2月16日凌晨，OpenAI发布了首个文生视频模型Sora。

Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

据介绍，Sora的工作原理是一个扩散模型，它从类似于静态噪声的视频开始，通过多个步骤逐渐去除噪声，视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构，有极强的扩展性。

对于Sora模型当前存在弱点，OpenAI也毫不避讳，称它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。

例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”，狼的数量会变化，一些凭空出现或消失。

该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

如提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

此前，Runway Gen 2、Pika等AI视频工具，还停留在生成几秒内的视频，Sora模型发布之后，有业内人士称AI视频要变天了，并表示“再用这些工具做几个视频，致敬4秒时代。”

Recommend