5

OpenAI空降视频生成模型:一口气生成60s,风格画质尺寸灵活定制 | 最前线

 7 months ago
source link: https://www.36kr.com/p/2650547758039300
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

OpenAI空降视频生成模型:一口气生成60s,风格画质尺寸灵活定制 | 最前线

周鑫雨·2024-02-16 08:49
Sora卷死模型公司。

文 | 周鑫雨

编辑 | 苏建勋

2023年4月,成立于纽约的Runway AI发布了一段用AI生成的视频:模糊卡顿、物体扭曲,且仅4秒;

四个月后,Runway将文生视频的视频效果拉到了4K的超逼着高度,实现了镜头的连贯稳定。而视频的最大长度也从4秒,提升到了18秒——这也是2023年文生视频的“时长天花板”。

然而,就在北京时间2024年2月16日凌晨,“天花板”又被打破——OpenAI又出王炸,发布了可以生成60秒视频的AI模型Sora

interlace,1

OpenAI官宣Sora。

同样在2月16日发布的谷歌最新多模态模型Gemini Pro 1.5,则被Sora迅速夺走了关注度。

interlace,1

网友为Gemini和Sora制作的梗图。

根据OpenAI官方发布的推文和技术报告,Sora能力的革命性可以被提炼为:最长生成60s视频、镜头的前后一致性、超逼真

从官方发布的视频demo而言,Sora只需要输入包含“构成元素、环境、行为及发生顺序、视频风格”等关键因素的Prompt(提示词),就能生成不同风格的高清、连贯,且具有丰富运镜和转场的60s级视频。

比如生成包含人物和城市元素的视频:

提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。

quality,q_80

Sora生成视频(原视频为60s,文中截取20s,画质受gif大小限制有所压缩)。图源:OpenAI

Sora也能生成动物和自然风光:

提示词:几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深。

quality,q_80

Sora生成视频(画质受gif大小限制有所压缩)。图源:OpenAI

Sora生成的视频已经能够达到逼真的效果。不过,用3D和动漫风格生成虚拟场景对Sora而言也不在话下:

提示词:动画场景的特写是一个毛茸茸的小怪物跪在融化的红蜡烛旁边。艺术风格是 3D 和现实的,重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇,怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。

quality,q_80

Sora生成视频(画质受gif大小限制有所压缩)。图源:OpenAI

突破时长和逼真的瓶颈,

Sora摸着DALL-E过河

在半年前,在保证生成画质的前提下时长仅仅是突破10秒,对于多数视频模型而言都是难以企及的高度。

这是由于循环网络、生成对抗网络、Diffusion模型等主流视频建模范式,通常只能学习某一小类的视觉数据、较短的视频或者固定大小的视频。

这意味着,此前主流范式下的视频生成模型对训练数据有较高的要求,需要将训练数据处理为具有标准大小、裁剪尺寸的视频。

Sora的技术报告显示,为了构建Sora,OpenAI创新性地采用了文生图模型DALL-E 3的相关技术:将Diffusion模型(可以将随机像素大致转换为图像)与Transformer神经网络(支持处理长数据序列)相结合

这意味着,Sora可以像处理文字和图像数据一样,对视觉数据进行分块式地理解分析,不用进行标准化的预先处理。

比如对应大语言模型中将文本分割为最小的处理单位Token,Sora也通过压缩视频到较低维度,将视觉数据分割为可分块处理的补丁(patch)。并且随着训练计算量的规模式(Scaling)提升,视频生成质量会显著提高。

quality,q_80

基于基础计算量生成的样本效果。图源:OpenAI

quality,q_80

基于4倍计算量生成的样本效果。图源:OpenAI

quality,q_80

基于16倍计算量生成的样本效果。图源:OpenAI

基于原始数据而非标准化处理数据的训练,不仅可以让Sora初步拥有理解真实或虚拟世界的能力,还能灵活生成时长不同、分辨率和尺寸各异的视频(目前可生成的尺寸范围是:宽屏1920x1080p~竖屏1080x1920p),以适应不同场景和设备的使用需求。

interlace,1

Sora生成不同尺寸下的同主题视频。图源:OpenAI

不过,仍有不少专家以审慎的态度看待这次技术突破。伊利诺伊大学厄巴纳-尚佩恩分校信息科学教授Ted Underwood在华盛顿邮报的采访中表示,OpenAI可能会挑选可以展示模型最佳表现的一些视频。

再比如,普林斯顿大学计算机科学教授 Arvind Narayanan在X推文中指出,Sora生成的时尚女子在东京街头行走的视频中,女子的左右腿交换了位置,背景中的人物在被前进物体短暂遮挡后消失了。

interlace,1

Arvind Narayanan的推文,可仔细观察原视频14-16秒处的双腿交换。

OpenAI官方也放出了一些“Sora翻车视频”,展示了Sora在理解复杂场景的物理原理、因果关系、空间细节、时间推移上的弱点。比如,它搞反了人在跑步机上跑步的方向。

interlace,1

Sora生成的视频截图。提示词:打印一个人跑步的场景,35 毫米电影胶片。

Sora杀死Runway们,

伦理安全引发大众担忧

2022年,TikTok观看量Top 10的视频平均时长为44.2秒,最长的一个视频长达2分16秒;

广告分析公司Integral Ad Science的统计数据显示,移动网络展示广告和移动应用的广告平均时长分别为15.6秒和20.2秒。

这意味着,一旦文生视频模型突破了60s的时长瓶颈、画质达到商用级别,对于用户的生产和娱乐方式,都会产生巨大的影响。《马戏之王》导演Michael Gracey告诉华盛顿邮报:“电影制作者不再需要一个由 100 或 200 名艺术家组成的团队,在三年内制作他们的动画长片。这让我很兴奋。”

然而,他依然对AI工具可能会造成的版权争议、失业问题而感到担忧:“它(AI)剥夺了其他人的创造力、工作、想法和执行力,却没有给予他们应有的荣誉和经济报酬时,那就不好了。”

由于Sora生成的视频质量远高于多数视频生成模型,尤其现实风格让人真假难辨,不少专家也表达了对视频深度伪造(Deepfake)的担忧。政治竞选虚假信息识别组织True Media创始人、华盛顿大学教授Oren Etzioni在纽约时报的采访中表示:“我非常害怕这种事情会影响一场势均力敌的选举。”

目前,OpenAI为Sora生成的视频自动添加了水印标记,以表明由AI生成。OpenAI创始人兼CEO Sam Altman在X上表示,目前Sora正在展开红队测试(Red-Teaming,一种安全评估方法),并只对少数人开放测试。

interlace,1

Sam Altman的推文。

不过,即便尚未正式对公众开放,Sora的能力已经引起了不少视频模型创业者的恐慌。

“当一个质量更好、时长更长、应用场景更广泛的视频模型摆在面前,没有人还想用‘Runway们’。”一名AI创业者告诉36氪,“对模型层创业者来说,当务之急还是赶紧找场景、做应用。”

本文由「周鑫雨」原创出品, 转载或内容合作请点击 转载说明 ;违规转载必究。

寻求报道

本文图片来自:采访供图


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK