3

Sora火爆3天,圈内人士纷纷表态

 6 months ago
source link: http://tech.caijing.com.cn/20240220/4990942.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Sora火爆3天,圈内人士纷纷表态

北京时间2月16日凌晨,OpenAI发布了首个文生视频模型Sora。该模型可根据用户输入的文本提示词描述,生成一段60秒钟的视频内容。

在这3天时间里,OpenAI和Sora占据了AI行业的话题中心,无论是AI工具的使用者,还是马斯克、杨立坤、周鸿祎等科技大咖,都陆续发表自己的见解。马斯克表示“人类愿赌服输”;周鸿祎则预言“AGI实现将从10年缩短至1年”。

OpenAI首席执行官Sam Altman在社交平台X上积极与网友互动,还顺势开始招聘:“OpenAI是我在一个地方见过的最有才华、最友善的一群人,致力于解决最困难、最有趣和最重要的问题,所有关键资源均已到位,非常专注于打造 AGI(通用人工智能),你也许应该考虑加入我们。”

圈内人士如何看?

2023年文生图、AI对话如火如荼,进展速度肉眼可见,文生视频却像是一块被AI缓慢开发的“金矿”,Runway、Pika等创业公司浮出水面。直到2024年年初,OpenAI发布Sora,并展示了多个由Sora生成的视频,“碾压”行业目前平均“4s”的视频生成长度,并在生成质量上提升了一个台阶。

在官方分享的演示视频中,Sora可以直接输出有多个角色、多种场景和运镜的画面。比如一段提示词为:镜头穿过熙熙攘攘的东京街道,跟随几个人享受雪天并逛街。在Sora生成的视频中,镜头从天空的雪花中俯冲,跟着一对牵手的情侣,走过日本风格的街道。

图片

再例如一段提示词的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。

视频发出后,网友用无数种语言,在全球的社交媒体上惊呼:现实,不存在了。业内大佬们从不同角度对Sora进行分析评价。

马斯克在社交平台X上,留下“人类愿赌服输”人类借助AI之力将创造出卓越作品”等评论;作为AI视频行业玩家之一Runway的联合创始人兼CEO Cristóbal Valenzuela则表示,以前需要花费一年的进展,变成了几个月就能实现,又变成了几天、几小时。

图片

据媒体报道,出门问问创始人在朋友圈感慨:“LLM ChatGPT是虚拟思维世界的模拟器,以LLM为基础的视频生成模型Sora是物理世界的模拟器,物理和虚拟世界都被建模和模拟了,到底什么是现实?”

除此之外,鸿博股份副总裁、英博数科CEO周韡韡也在朋友圈分析最触动她的视频,赞叹“从艺术的角度,sora明显懂得区分和合理搭配各种蒙太奇,意识流……从技术的角度,如此快速地完成稳定复杂的RTX,真的……”

她还直言AI时代,一步快,步步快,先发优势壁垒远超互联网时代,“追赶还是弯道超车?过去诸多引以为傲的综合性人才,在强AI前显得如此斑驳无力,与其原地感叹,不如躬身入局,至少做个熟练掌握工具的合格工具人。”

360集团创始人周鸿祎在Sora发布后,很快发了一条长微博和视频,预言Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具。

他认为大语言模型的厉害之处在于,能完整地理解这个世界的知识。而此前所有的文生图、文生视频都是在2D平面上对图形元素进行操作,并没有适用物理定律。

“这次很多人从技术上、从产品体验上分析Sora,强调它能输出60秒视频,保持多镜头的一致性,模拟自然世界和物理规律,实际这些都比较表象。最重要的是Sora的技术思路完全不一样。Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。”

周鸿祎认为,这也代表未来的方向。有强劲的大模型做底子,基于对人类语言的理解,对人类知识和世界模型的了解,再叠加很多其他的技术,就可以创造各个领域的超级工具。并预测,Sora的出现,或意味着AGI实现将从10年缩短到1年。

图片

美国旧金山早期投资人Zak Kukoff预测一个不到5人的团队将在5年内用文生视频模型和非工会的劳动力制作一部票房收入超过5000万美元的电影。国内不少AI视频创作者也畅想着,一部由AI制作的电影尽快到来。

 OpenAI详解技术突破点

Sora的出现,将文字转化为视频盛宴,在震惊之余,相关技术也备受瞩目。

英伟达高级科学家Jim Fan在X上表示看到了一些强烈的反对意见:“Sora不是在学习物理,它只是在2D中操纵像素。”Jim Fan称他不同意这种还原论的观点.

紧接着他发帖表示Sora是一个数据驱动的物理引擎,是对许多世界的模拟,无论是真实的还是幻想的。“模拟器通过一些去噪和梯度数学来学习复杂的渲染、‘直观’物理、长期推理和语义基础。”

纽约大学助理教授谢赛宁发表多篇推文进行分析,推测Sora建立在扩散Transformer模型之上,整个Sora模型可能有30亿个参数。

当大家在已有信息中抽丝剥茧地分析Sora技术成果的同时,OpenAI一反常态,公布了相关的技术Paper:

“我们探索了利用视频数据对生成模型进行大规模训练。具体来说,我们在不同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件的扩散模型。我们引入了一种transformer架构,该架构对视频的时空序列包和图像潜在编码进行操作。我们最顶尖的模型Sora已经能够生成最长一分钟的高保真视频,这标志着我们在视频生成领域取得了重大突破。

我们的研究结果表明,通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路。”

这份技术报告主要聚焦于两大方面:首先,详细介绍了一种将各类可视数据转化为统一表示的方法,从而实现了对生成式模型的大规模训练;其次,对Sora的能力及其局限性进行了深入的定性评估。

图片

需要注意的是,本报告并未涉及模型的具体技术细节。

另外,OpenAI已经公开承认了一些Sora存在的缺陷:它可能难以呈现复杂的物理变化规律,无法理解因果关系,混淆空间细节。

例如在演示视频中,“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。

Sora目前定性为初期研究成果,不面向公众使用,因为公司担心深度伪造视频的滥用问题。现在只有一部分视觉艺术家、设计师和电影制作人有内部试用机会。业内不少玩家,包括一些影视行业从业者,都表示期待全面开放之日。

综合自OpenAI、21世纪经济报道、X平台等。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK