3

Sora不靠蛮力,大厂忙拆盲盒

 4 months ago
source link: https://www.woshipm.com/ai/5998159.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Sora不靠蛮力,大厂忙拆盲盒

2024-02-23
0 评论 473 浏览 1 收藏 13 分钟

Sora的突破,再次证明AI是一个大型系统工程。OpenAI靠的不是蛮力,国内人工智能圈还需要方方面面的补足。一起来看看本文的分享和解读。

ac1487ae-d0ac-11ee-93d8-00163e142b65.png

在春节开工后这一周,国内人工智能圈以及与Sora技术相关的大厂,对OpenAI公布Sora后的反应,与媒体上的热烈程度形成鲜明反差。

OpenAI越来越闭源,几乎没有任何具体信息,国内还处于拆盲盒阶段。不得不承认,Sora是算法组合、数据选择、训练策略、算力优化等多种能力的结合,虽然这些技术可能不是OpenAI的原创,但OpenAI对它们的深刻洞察,以及精巧的系统构思设计能力,才做出“颠覆性”突破,而非简单的蛮力。

在这样的大系统工程面前,国内人工智能圈还需要方方面面的补足。

一、大厂的反应

这一周,字节、百度、阿里、腾讯、华为、浪潮等企业未对外发声。一些相关大厂的研发团队则在“拆盲盒”,信息也绝对保密,“Sora将影响今年公司产品的研发计划。”

值得关注的是,对Sora的积极关注度和洞察程度,在大厂的中高层,总体不像去年ChatGPT推出后那么紧迫和深入。

在各大厂内网上,核心研发团队之外的“吃瓜群众”,在零星发帖讨论,“谈不上讨论热度”,甚至有国内人工智能大厂内网是“零贴”。这种状况与媒体上的热搜新闻,甚至对中美AI差距加大的哀嚎,大相径庭。

不过,一些较快的动作,也能窥见业界的一些紧迫感。Sora发布第二天,2月17日,阿里摩搭社区推出对Sora技术路径的分析,文章很热;2月18日,百度的度学堂推出Sora系列解读课程;春节后刚开工,浪潮相关业务已对Sora给出分析报告。不少大厂相关业务线纷纷布置调研汇报作业,其中有些企业将在本周做出Sora分析调研。

Po14WLV5QiWL9jsZfena.jpg

由于OpenAI透露的信息很少,与ChatGPT推出后,对技术的一些具体分析不同,对Sora的分析猜测成分更多,具体依据更少。

Rl1zgiatTieUtf4TbrEq.jpg

从各大厂内部的员工讨论看,大家集中在几个方向:Sora的技术机理,包括Sora能不能成为真实世界的模拟器;算力;商用方向和时间。目前,技术机理还有不少”谜团“;对算力消耗的推测也较混乱;在Sora商用时间上,预测从一个月到半年不等,普遍认为速度会很快

有大厂员工发文分析,从OpenAI的动作,包括发布Sora、ChatGPT、DALLE以及一直强调的agent看,今年下半年OpenAI可能发布的GPT5,将是第一版真正意义的Agent。有了这个Agent,比如未来要做一个App,GPT5可自动生成代码、图片、视频、打包部署,包括申请、配置域名,最终生成可访问的App。这些推测也预示着,每位员工未来的工作方式正在被重塑。

虽然大厂论坛鲜有对技术差距的哀嚎,但员工在交流中都有抱怨和无奈。不过,也有人士认为,Sora反而对国内AI超级有利,原因是在全球短视频市场上,字节、腾讯、快手占前三,而Sora原理基础大家也都知道,以国内现有的GPU算力,推测“快的话一年”,国内将有类似产品推出

二、OpenAI不靠蛮力

业界都关注到,Sora 的惊艳效果得益于新的算法组合和训练策略。然而,类似ChatGPT,单纯从具体算法来说,都不是 OpenAI的原创。

“Sora 在算法组织和数据训练策略上下了很大功夫,充分挖掘了算法和数据的潜力,学到更深层知识。”云知声董事长梁家恩说,通过架构设计和训练策略,而非单纯算法改进,OpenAI 继续刷新了业界的认知。这体现了OpenAI对算法和数据潜力的深刻洞察,以及精巧的系统构思设计能力,而非简单使用“蛮力”,才能做出这种“颠覆性”的突破。

在Sora官宣后,纽约大学谢赛宁对其进行了技术推测。由于谢赛宁与Sora团队关系较近,他的推测影响很广,尤其是他猜测“Sora参数可能是30亿”。

一些人士认为30亿参数有一定道理。一位资深人士分析,Sora生成的视频效果惊艳,但细节问题较多,应该是OpenAI拿出来先秀肌肉的,OpenAI会进一步扩展模型;另一位资深人士则从算力角度直观分析,视频是三维的,单位处理需要的算力非常大,如果Sora参数太大,算力会不够。

不过,也有一些行业人士认为“不止30亿”。

“30亿参数,我认为是有误导性的。”一位短视频人工智能资深人士告诉数智前线,“Sora背后依赖了OpenAI最强大的语言模型来生成Caption(字幕、说明文字)。”而在Sora提供的技术报告中,简要描述了,他们针对视频如何设计自动化技术,生成文本描述,或将简短的用户提示转换为更长的详细描述,用来提高视频的整体质量。

而从OpenAI一直在摸索人工智能边界的风格来看,一些人士也认为,30亿太小了。“这不符合它一贯的做法,他们都是‘大力出奇迹’。”中科深智CTO宋健对数智前线说,实际上,理论上已指明了道路,有不少企业也去尝试了,目前来看,真正意义上能执行下去的只有Sora。

一位浪潮人士称,Sora的突破再次证明了AI是一个系统工程,单纯静态的推测参数可能没有意义

在视频生成上,过去大家的困难在于,很难保持视频的连贯性或一致性,因为中间有很多反常识的东西,如光影不对、空间变形,所以业界搞不定长视频。

“OpenAI 最终是否采用了更大规模的参数,根据目前公开信息还无法判断,但我估计以他们风格肯定会尝试的。”梁家恩说,此前,OpenAI 从 GPT2 做到 GPT3 时,就是坚信只要算法架构合理,通过超大规模的无监督学习,是可以通过小样本甚至零样本学习,击败有监督学习,这是 OpenAI 对规模效应的坚定信念。“这次Sora通过算法组合和数据设计,学到更多符合物理规律的‘知识’,符合 OpenAI 这些年来的一贯风格。”

不过,Sora尚不能称为一个合格的物理世界的模拟器。在它生成的视频中,存在大量错误。OpenAI自己也在技术报告中提出,这是一个有希望的方向。

人们对Sora的需求不同。“如果你现在做数字孪生,还不如直接用物理引擎作为底层来构建,就像英伟达的Omniverse,虽然不完全是物理的,但已经很精确了。”宋健说,“但对于视觉艺术来讲,讲的是视觉感受力,反物理也没关系,只要视觉上给大家足够好的冲击力就可以。”

三、算力猜想

“现在大家对算力的推测非常混乱。”一位英伟达人士告诉数智前线。由于OpenAI这次公布的信息非常少,业界很难评估。

“视觉模型或多模态模型跟大语言模型算力的评估方式不太一样。”一位人工智能算力资深人士告诉数智前线,即便Sora可能只有几十亿参数,其算力与几百亿或上千亿的大语言模型估计差不多

他进一步分析,可以参考文生图模型Stable Diffusion,参数大概只有10亿,但训练算力用了几十台服务器,花了将近一个月时间。他估计Sora的训练算力可能比前者至少大一个数量级,也就是数百台服务器,而后面OpenAI肯定会进一步去做scaling,把Sora模型做的更大。

另一方面,这种模型的推理算力也比大语言要大很多,有数据曾显示,Stable Diffusion的推理算力消耗,与Llama 70b(700亿)参数模型差不多。也就是说,推理算力上,一个10亿的文生图模型,与千亿量级的大语言模型差不多。而Sora这种视频生成模型的推理算力,肯定比图片生成模型还要大很多。

“文本是一维的,视频是三维的,视频的单位计算量大很多。”一位人工智能专家告诉数智前线,他认为需要大几千卡才有机会。

由于Sora推动的文生视频方向的发展,今年国内算力总体仍会非常紧张。有算力基础设施企业人士称,在人工智能算力上,北美几家巨头的算力,现在已是国内总算力的十几倍,甚至还要更多

但在某些局部上,国内算力已经出现了闲置。这包含了几种情况,比如一些去年上半年开始训练大模型的企业,放弃开发大模型或改为使用开源模型;去年大语言模型的落地应用遭遇挑战,还没有大量的推理应用落地,这些会导致一些企业出现几十台或几百台的空闲。

宋健也发现了局部算力闲置的问题。他观察,尤其是2023年11月份左右开始,算力的租赁变得容易,而且价格可能是原来的2/3甚至1/2。

作者:赵艳秋‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍;编辑:牛慧

来源公众号:数智前线(ID:szqx1991),关注数字化和智能化。

本文由人人都是产品经理合作媒体 @数智前线 授权发布,未经许可,禁止转载。

题图来自 Sora 官网演示视频截图

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App

format,webp

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK