4

OpenAI为什么总是领先一个版本

 6 months ago
source link: https://www.woshipm.com/ai/5994895.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

OpenAI为什么总是领先一个版本

2024-02-19
1 评论 545 浏览 0 收藏 9 分钟

最近,OpenAI推出的视频模型Sora引起了广泛热议,而在讨论Sora可能产生的影响之外,我们会发现,OpenAI总能走在前列。这是为什么?或许在大模型时代,我们要找到真正的有效增量。

078080b4-d9de-11ed-bd5e-00163e0b5ff3.jpg

Sora视频模型的发布,几乎复刻了一年半之前GPT-3初登场时的AI圈盛况:

突然出现,引起热议,广为震惊。

北京时间2月16日,在没有任何消息外泄、事先预告的情况下,OpenAI在社交平台X(原推特)发帖,首次对外公布了名为Sora的文生视频AI模型。

uMbF4nY9zSZme5eJdEX1.png

一句“Introducing Sora, our text-to-video model(介绍一下Sora,我们的文本转视频模型)”,切入正题之简短,比起宣发,更像是一则告知:是的,我们又掏出大的来了。

之后,便是对Sora模型的能力介绍:Sora可以创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力、情感的多个角色。

还附上了演示案例的对应Prompt(提示词):美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。美丽的樱花花瓣随着雪花在风中飞舞。

IFpCUs2YS941p071W0Xn.gif

对于Sora,业界评价并不统一:

有人100%认可,也有人120%、200%认可。

360创始人周鸿祎发文称,Sora意味着实现通用人工智能可能从10年缩短至1年,该模型展现的不仅是视频制作的能力,还展现了大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。

英伟达人工智能研究院首席研究科学家Jim Fan将Sora称作是视频生成领域的GPT-3时刻:Sora是一个“数据驱动的物理引擎”,一个可学习的模拟器或“世界模型”。

高强度网上冲浪且一向心直口快的马斯克则直接打出gghuman(人类输了)。

cRiDHoB0i9j4ljWArQrC.png

暂且不去深究后续影响到底是积极还是消极,能给AI、影视、社媒等一众行业同步带来颠覆性王炸、划时代之感的,又是OpenAI,总是OpenAI。

像是一群工程师还在讨论如何进一步完善登月计划,OpenAI的团队已经从火星传回来一组自拍——他们总是领先一个版本,为什么?

nQ13wvk1IWhlAjOw2Gxe.png

前文英伟达AI研究院科学家Jim Fan对于Sora的评价,从技术层面来看很有参考性:他将Sora定义为物理引擎和世界模型。传统意义上的视频画面是二维,而人们身处的物理世界是三维的。

这成为了AI视频模型设计之初的理念区别:在生成视频的过程中,AI的作用到底应该是将多段视频片段拆分组合,还是应该作为一个主体,构建并记录一个虚拟的AI空间。

OpenAI的选择是后者。

其官网发布的Sora技术报告中,有一句话值得注意:“我们的结果表明,发展能够模拟物理世界动态的通用模拟器是一条充满希望的途径,具有前所未有的准确度和现实感。”

做一个粗浅的理解就是,Sora不是编辑视频,而是在生成视频之前先建模一个空间,然后变成一个镜头记录这个三维立体的虚拟空间。

立体建模能展现信息量远远多于平面图,从设计思路上OpenAI就领先了一个维度,或者说提前了一个版本。

当然,更多的信息量意味着更庞大的数据流,在有限算力内跑出更好效果、在保证效果的前提下尽量节约算力,本质上是同一个问题:AI计算效率。

但对于OpenAI来说,这些问题都有经验可循——从ChatGPT到GPT-4等等项目的技术积累,成为OpenAI构建Sora模型的良好地基。

受大语言模型成功案例启发,OpenAI在探索视频模型时就在思考“如何获得类似的好处”:大模型运转期间,token(词汇单元)作为自然语言处理任务中的最小文本单位,承载着输入信息的作用,帮助模型对文本进行处理和理解。ChatGPT将代码、数学以及各种不同的自然语言一并拆分为token,再交由模型对token进行处理和理解,并能够通过学习token之间的关系来获取更多的语义信息。

同理,在视频生成模型中,OpenAI也创造了与token对应的数据单位“Patch”(图像单元),将图形语言转化为对应格式的Patch进行计算,在保证模型扩展性的同时,大幅提升单位算力内的运算效率。

PR3ge0zy0UdmIKiV9m0P.png

而在模型的前端,OpenAI同样用上了自己在GPT系列模型的成果:

和文本对话类似,训练文生视频的过程中,除了需要视频素材案例之外,同样需要大量对应的文字说明。OpenAI采用了最初在DALL·E 3中提出的“重新加标题”模式,用具备高度描述性的标题生成器为训练集中的视频素材生成文字说明。生成结果也证明了,在制作期间为素材添加额外的说明,可以提高包括准确性在内的整体视频质量。

此外,仿照DALL·E 3的做法,OpenAI还另外使用GPT对用户输入的简短提示词进行了更便于AI理解的扩写,把用户输入的文字扩充成更长、更详尽的说明,再交由视频生成模型进行处理。

2vRq7iom2pyHIForF1AR.png

对于OpenAI这类技术驱动型公司来说,经验和技术的积累都是加速度,有迹可循的成功经验叠加团队自身对AI概念领先理解,让OpenAI总是能踩在自己的肩膀向上,或是推着自己加速向前。

比技术领先更可怕或者说更值得友商在意的,是这种领先往往会成为惯性,一步快步步快。指望靠加速追赶和对标与OpenAI看齐,在配套设施愈发成熟的阶段,难度恐怕只会不降反增。真正的增量,仍在顶层设计的创新之中。

所以,与其说是AI挤占了人的创新空间,倒不如说是AI拉高了有效创新的门槛:设计AI,或者能超越AI创意的设计,才是大模型时代的有效增量。

作者:陶然;编辑:魏晓

来源公众号:AI蓝媒汇(ID:lanmeih001),知名AI、互联网产业报道新媒体。

本文由人人都是产品经理合作媒体 @蓝媒汇 授权发布,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App

format,webp

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK