2

“今天,所有VC的会上都在谈Sora”

 7 months ago
source link: https://www.chinaventure.com.cn/news/80-20240218-379728.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

“今天,所有VC的会上都在谈Sora”

谈一则估值800亿美元的新故事。

仿佛梦回2023。去年年初,ChatGPT引发了普通人澎湃的讨论热情,此后海内外在AI大模型投资上展开了军备竞赛。

龙年刚一开年,OpenAI又打开了新局面。这次火的是文生视频。2月16日凌晨,OpenAI发布了文生视频大模型Sora。Sora能够根据文本提示创建详细的视频、扩展现有视频中的叙述以及从静态图像生成场景。

这类应用早就有了,但Sora的呈现仍然惊艳,视频中的主体稳定可控,可实现多角度切换,时长方面也突破,最长能生成60秒视频。

不愧是OpenAI。尽管Sora仍处于开发早期阶段,但它的推出已经标志着生成式AI迎来一个里程碑。

资本端同时传来新消息。在完成最新交易后,OpenAI的估值已飙升至800亿美元以上。这笔交易来自于Thrive Capital精心策划的要约收购。

尽管OpenAI和Thrive Capital对此皆不予置评,但小红书博主“Shannon”昨天发的帖子很有情绪的代表性,“明天所有fund开会的议题都有OpenAI的Sora”。

只不过,和去年相比,投资人的心态变了。不是人人都有机会投中OpenAI,但OpenAI的能力边界却实实在在影响着一批创业公司和背后的投资人。

“水到渠成”和“令人发指”

首先需要明确,“文生视频大模型”并不是一条全新的赛道。在OpenAI登场之前,头部大模型研发商几乎都拥有自己的文生视频大模型,例如Google的Lumiere以及Stability AI的SVD(Stable Video Diffusion),甚至已经诞生了垂直于多媒体内容创作大模型的独角兽,例如视频生成大模型Gen-2的开发商Runway,在2023年6月底完成由Google、Nvidia、Salesforce参与的C轮融资后,估值超过15亿美元。

更重要的是,上述已有的“视频大模型”,隐隐有了生产力工具的影子。

以Runway为例,与许多“拿着锤子找钉子”式的“技术驱动型”大模型创业团队不同,Runway的三名创始人Valenzuela、Alejandro Matamala和Anastasis Germanidis来自于纽约大学艺术学院,他们共同看到了“人工智能在创造性方面的潜力”,于是决定共商大计,开发一套服务于电影制作人、摄影师的工具。

这层基因打底,相比科技公司的“车库文化”,Runway的发展轨迹更像“横店影视城奋斗史”:先开发了一系列细分到不能再细分的专业创作者辅助工具,针对性地满足视频帧插值、背景去除、模糊效果、运动追踪、音频整理等需求;随后参与到图像生成大模型Stable Diffusion的开发过程中,积累AIGC在静态图像生成方面的技能点,并获得了参与《瞬息全宇宙》等大片制作的机会——这些影片在宣发中曾经有过详细描述,出品人们感叹他们的加入让后期团队“保持了一个超乎常规的小规模”状态,影视同行们惊叹很多许多复杂的特效制作(比如《瞬息全宇宙》里那两块对话的石头),工期已经从“好几天”缩短到了“几分钟”。

等到2023年2月,Runway发布第一代产品Gen-1,普通用户已经能通过iOS设备进行免费体验,范围除了“真实图像转黏土”“真实图像转素描”这些滤镜式的功能,还包含了“文本转视频”,从而使得Gen-1成为了首批投入商用的文生视频大模型;2023年6月,他们发布了第二代产品Gen-2,训练量上升到了2.4亿张图像和640万段视频剪辑。

2023年8月,爆火B站、全网播放量超过千万、获得郭帆点赞的AIGC作品《流浪地球3预告片》正是基于Gen-2制作。根据作者@数字生命卡兹克 在个人社媒上的分享,整段视频的制作大体分为两部分——由MidJourney生成分镜图,由Gen-2扩散为4秒的视频片段——最终获得素材图693张、备用剪辑片段185条,耗时5天。半年之后,@数字生命卡兹克 再次通过“MJ V6画分镜-Runway跑视频”制作了一段3分钟的故事短片《The Last Goodbye》,投稿参赛Runway Studios(Runway专门为企业级客户提供定制化服务的部门)所组织的第二届AI电影节Gen48。

换句话说,实际上至少在一年以前,“文生视频大模型”就已经拥有足够的关注度,其目前用户规模也被远远低估。

Runway的联合创始人Valenzuela在C轮融资后透露,除了像New Balance这样的世界500强客户,他们还拥有“数百万个人创作者”。

除此而外,Sora所展现出来的“精准的物理世界还原能力”,也并不是OpenAI独自探索的AI领域。马斯克就在Sora发布的两天半后,也就是2月18日,在科技播客栏目“DrKnowItAll”里留言,“这种精准还原现实世界物理规律的虚拟世界生成能力,特斯拉已经差不多快掌握一年了……只不过因为素材来自车载摄像头,所以视频看上去没那么有趣”。

OpenAI在同期发布的技术论文《Video generation models as world simulators》也明确Sora更像是“数据驱动的物理引擎”,通过大模型的持续扩散来“高性能地模拟物理世界或者数字世界中的人、动物、其他物体”,因此仍然拥有“同行们都会面临”的局限性,例如“很难准确模拟复杂场景的物理原理,并且无法理解因果关系,比如Sora生产一段人咬饼干的片段,饼干可能不会出现咬痕”。

真正带来压迫感的,或许是Sora不可思议的进化速度。

从技术层面看,无论是“拥有精准物理规则的真实世界”“支持60秒视频生成”还是“单视频多机位”都可以被形容为水到渠成,然而正如上面所提到的——如今看起来傻傻的、只支持生成“4秒视频生成”并且“掉帧明显到像幻灯片”的Gen-2其实是2023年6月发布的产品,距离Sora的发布日不过8个月。

2023年11月,Meta发布的视频生成大模型Emu Video看起来在Gen-2上更进一步,能够支持512×512、每秒16帧的“精细化创作”,但3个月之后的Sora已经能够做到生成任意分辨率和长宽比的视频,并且根据上面提到的开发者技术论文,Sora还能够执行一系列图像和视频编辑任务,从创建循环视频到即时向前或向后延伸视频,再到更改现有视频背景等。

而如果要死磕这种不可思议的进化速度,除了“神秘的外星文明”,最现实的解释恐怕只有“海量烧钱”。

作为Runway半个领路人的Stability AI近两年周期性地遭遇“现金流压力”,一会儿传闻高层正在积极探索出售公司,一会儿又流传着早期投资者Coatue Management的内部信,直指“Stability AI的财务状况令人担忧”,建议CEO Emad Mostaque原地辞职。最揪心的传闻是,为了让亚马逊相信自己不会拖欠高达7500万的云服务费用,身为前对冲基金经理的Emad Mostaque选择以个人财产作为担保。

然而从融资的角度看,Stability AI做到了赛道的天花板,其在2022年10月完成超过1亿美元的融资后,估值早早来到了独角兽级别。Emad Mostaque在去年7月的一次采访中忍不住直发狂暴言论,他说:“Bard AI只是因为在宣传片中提供了不准确的信息,就造成了每天超过1000亿美元的损失……人工智能作为基础设施所需的投资总额可能为1万亿美元,这会是人类有史以来最大的泡沫”。

知乎上,一位叫做“像素炼金师”的创业者坦承了他在目睹Sora发布后的心路历程:“我有些害怕科技巨头的产品像隆隆火车一样驶过,而我做的东西如同路边的野草一样,在这个技术进步就像跑马灯一样的时代里,留不下一丝痕迹。”

估值800亿和领头羊的边界

无论怎样,OpenAI再次印证了AI“巨无霸”的地位。看似无远弗届的能力,支撑其估值在不到10个月的时间里增长了两倍。CB Insights的数据显示,OpenAI目前是世界上最有价值的科技初创企业之一,仅次于字节跳动和SpaceX。

拓展模型能力的同时,OpenAI还在推进多元化的战略。尤其是在半导体领域,奥特曼正与潜在投资者、半导体制造商和能源供应商等各种利益相关者接触。他甚至在考虑成立一家独立于OpenAI的新公司,进入AI芯片行业。

这笔交易也揭示了,奥特曼之于OpenAI,仍然是不可或缺的角色。原本在去年11月,OpenAI便将敲定最新的融资交易,但当时奥特曼遭遇了解雇风波。交易有没有受到影响不知道,总之结果是,770名员工中的700多人最终签署了请愿书,要求他复职。

细看这轮融资,不是发行新股,而是准许OpenAI员工对外出售所持股份。这对于OpenAI来说并不新鲜。2023年,Thrive Capital、红杉资本、Andreessen Horowitz和K2 Global等风险投资巨头也采取了类似的做法,参与OpenAI的要约收购,当时该公司的估值已经达到290亿美元。

那么,OpenAI的边界在哪里?

这个问题不仅事关OpenAI的估值,也关乎大大小小生成式AI创业公司的前景。

原本在视频生成这个赛道上,海外已经有几家创业公司卡位。最知名的莫过于前文所述的Runway。另一个领头羊是Pika,创立于去年4月,11月宣布完成了总计5500万美金的A轮及天使轮融资,估值达2.5亿美元。Pika由郭文景和孟晨琳共同创立,两人都曾是斯坦福大学人工智能实验室的博士生,履历亮眼。郭文景还被誉为“华裔天才少女”。

OpenAI会冲击这些公司吗?别急,Sora 公开后,有海外博主已经对几家公司的产品做了对比。他给Sora、Pika、Runway和Stable Video四个模型输入了相同的prompt。结论是,Sora 在生成时长、连贯性等方面都有显著的优势。

必须要说,这几家做文生视频的公司都开发了自己的大模型,而非纯粹的基于别人的大模型来开发应用场景的那类公司。但即使有技术护城河,要抵挡OpenAI的冲击也没那么容易。

当然,这并不是说,纯做应用的公司完全没有前途了,背后也许涉及到一个发展阶段的问题。

去年,红杉资本的两位合伙人再次发表文章,复盘一年前自己对市场的看法。他们指出,其中一个预测错误是,垂直分离尚未发生。“我们仍然相信应用层公司和基础模型提供商之间会有分离,模型公司专注于规模和研究,应用层公司专注于产品和UI。但在实际上,这种分离还没有干净利落地发生。最初面向用户的应用中,最成功的那些都是垂直整合的公司。”

国内也是类似的局面。

有投资人告诉我,他们关注的一家AIGC公司也在开发基于特定产业数据的独有的模型,而不是仅仅调用别人的API。“不然很难指望他们在应用层面做出真正差异化的东西。”

回头看,过去一年,OpenAI的每一次技术突破,都会拓展资本对它的想象空间,但同时也堵上一部分创业公司的前进之路。

“AGI去年已经把软件行业毒死了。现在公众只是在目睹毒发的过程。”有创业者在转发一则Sora的消息时,在朋友圈评论道。

所以,AI投资难,尤其是应用层。“重点还是界定清楚,什么东西能在大模型的演进过程中受益,什么东西又在大模型演进过程中被瓦解。”一位AI投资人曾模糊地告诉我。但OpenAI的超能力使得这个关键问题没那么容易预判。

再看大模型。《北京最火独角兽翻6倍了》一文写过,智谱AI去年一年的估值翻了已经翻了6倍多,已经有投资人给出200亿估值。我最近也听说,百川智能和MiniMAX,最近都传出新一轮融资已到位的消息。OpenAI出新招,这些公司不可能不焦虑。好在弹药尚且充足。Sora的诞生,无疑又将引发新一轮追赶。

借着Sora火热,AI的相关概念必将再炒一波,尤其是英伟达这类充当卖水人,又可以大赚一笔了。但对于一级市场的创业者和投资人而言,我只能说,暂时,继续卷罢。

网站编辑: 郭靖
本文为投中网原创文章,转载或内容合作请点击转载说明,违规转载法律必究

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK