3

“已经有三个人跟我说要做中国版Sora”

 6 months ago
source link: https://www.36kr.com/p/2657781961785600
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

“已经有三个人跟我说要做中国版Sora”

36氪的朋友们·2024-02-21 07:12
今年,不论是创业者还是投资人都成熟了。
interlace,1

先讲两个非常“中国特色”的荒诞段子:

小红书上,一位投资领域的博主称,一天内已经有三个项目方找过来说要做中国版Sora,但听起来,心态都是“看看能不能骗点钱”;

另有一图,昨日广为流传,图上标“中美两大AI巨头”。美方代表是OpenAI的CEO奥特曼,中方代表则是卖AI课赚了上亿的博主李一舟。

怎么说呢,前者未经证实,但代表了一部分人对AI创业者,乃至整个创业者群体的“刻板”印象;到了李一舟这,这种“刻板印象”终于有了明确的指摘对象,没办法,谁让人家赚钱了呢。不过到底是虚晃一枪,瞧不上的是中国AI。(具体参见《“李一舟何许人也” | 底片》)

调侃归调侃,当我拿这消息问几位投资人朋友时,反馈是,还没人碰到过打着中国版Sora旗号的离谱项目。我想,这可能是因为,大家还处在震惊之中,需要一点反应的时间。也可能因为,和去年ChatGPT搅动的热潮相比,今年的情况相似又不同。

对世界丧失掌控感的心态大体是相似的,不同在于,经历过去一年的洗礼,到今年,不论是创业者还是投资人都成熟了。一部分人清醒地意识到,热闹归热闹,但热闹大都是OpenAI的。

“霸权创业”

“我们之后大概率不会投文生视频类项目了,因为OpenAI太强了。”一家主流投资机构的朋友这样回复我。

很难说这种心态是悲观,还是认清现实后的冷静。如果回溯,类似的言论最早从去年3月GPT4发布插件便开始了。

在《第一批投AIGC的VC开始后悔了》一文中,我写过当时典型的担忧是:是不是所有垂类的应用公司都会被基于GPT4插件的生态取代?之前投的项目会不会黄了?今后还要不要看?

别怪写稿的人絮叨,因为类似的事情总在不断发生。去年年底,奥特曼在YC的一场演讲,又给生成式AI领域的创业者浇了一盆冷水。

他建议,应该以通用人工智能的实现为前提进行技术开发。因为GPT5可能会相对于GPT4有指数级的跳跃,这个进展将会给初创企业和现有公司带来许多挑战。反过来说,他不建议的是,创建那些产品业务致力于解决当前GPT4限制的内容,因为大多数限制将在GPT5中修复。

这份给创业者的指南,既诚恳,又傲慢,杀伤力极大。AI巨无霸的掌舵者在提醒创业者,不要瞎折腾,OpenAI自身的迭代很快会覆盖一批公司。

我更想到了另外一段话,来自一年前的另一个“大模型”选题,当时ChatGPT给了世界一个“小小的震撼”,也带来了一阵密集的投资风口,几乎所有人都在努力寻找能交付出类似产品的创业者,并且不吝于将寻找到的创业者塑造成神。

我本能地对当时的氛围感到警惕,于是设计了一份简单问卷,向超过30个人工智能赛道内的创业团队发出QA邀请,试图搞清楚舆论是否过热并且严重拔高了行业现状,然后收到了一份这样的答案:

“我们认为人工智能这一轮的发展是不断集成人类智能的过程,在这个过程中很多流程、环节、都会吞噬,形成端到端、自动化的解决方案,最后会不可避免地形成超级智能——这些环节在上一代互联网的时代是存在独角兽公司的(所以互联网时代是一个“平权”的创业时代),但是现在没机会了——比如GPT4出现之前很多企业做视频和图片处理,但GPT4出来以后对他们是一个重大打击,模式是否成立都是问题。”

这个答案来自集智魔方创始人徐大大。简单概括,他认为人工智能这一次的热潮很难留下太多机会,反而可能即将面临一个“霸权式创业”的时代。

而这种“霸权创业”的感受也正在完整地通过创业者传递给投资人。徐大大和很多VC接触后,发现大家目前形成的共识是创业规划要有“战略提前量”,而不是寻求“时间提前量”,因为“如果方向错了,早晚被足够的算力追上”。

具体到视频生成领域,AI投资人Magic(化名)跟我分享了一个真实案例。去年他们团队反复讨论过要不要布局一家文生视频公司,最终还是没投。

当初纠结的点在于,他们看到的国内公司现有的方案明显有性能上限,同时知道OpenAI在用更fundamental的方式解决问题,只是不知道什么时候能做出来。“说白了就是知道OpenAI会做,觉得其他公司没有戏,但没想到来得这么快。”

现有的能想到的场景OpenAI一定能想到,还能有什么新的场景出来?OpenAI的超能力令AI投资人陷入迷惘,不确定究竟该在应用层面投些什么。

谈追赶,Magic没那么乐观。他认为,国内公司与OpenAI的差距,本质在于视野、认知和工程化能力的不同,当中的差距不是任何一家公司能在短时间内弥补的。

更不用说,国内一部分公司对外宣扬的和实际情况多少存在一些水分。比如,我在某公司去年的通稿里看到如下描述——“视频生成能实现可控的内容改写与风格迁移,效果优于Runway等在内的主流模型。”

国内的“类Sora产品”

放眼我国近几年的科技行业,创业者们对于“类Sora产品”的尝试一直没有停止。从技术路线来看可以分为两类:

一类是由剪辑工具衍生出来的“文生视频”产品。与Sora相同,这类产品的使用逻辑十分“自然语言”,用户只需要输入文本内容,产品就能匹配上对应的视频素材生成成片,只是这类产品并不会根据文本内容原生视频素材,而是在素材库内进行调用。

时间线上,早在2020年10月知乎就推出了“一键图文转视频”,配合当时同期推出的“海盐计划”,内容视频化战争打响;2021年4月,剪映也上线了“图文成片”功能,大量创作者使用后,得出的一致结论是“感觉会干死一堆营销号”。

可以说,也正是这条技术路线的成熟,催生了这几天Sora的一个衍生话题——Sora会“杀死”剪映吗,我的编辑也建议,将 “梁茹波在字节年度大会上反省了公司内部的技术讨论直到2023年才有GPT相关议题”和“张楠在年初辞去抖音集团CEO职务,宣布将专注于剪映”联系在一起,进而得出“AI视频生成”或许是字节跳动找到的最现实也最直接的“第二增长曲线”的结论。

前字节跳动算法工程师“像素炼金师”持类似的观点。他在知乎问题“OpenAI的视频模型Sora能否颠覆影视创作”的回答里写过这样一段话:

“不要怀疑视觉模型的能力……ChatGPT的上限可以质疑,大语言模型的训练可能面临着数据的匮乏,高质量的数据早就已经全部纳入到 GPT4 的训练集里了。但视觉的数据和文本不一样,我们可以几乎无限的从世界当中采集。”

第二类是由多模态大模型衍生出来的“文生视频”产品,此前让郭德纲说英语、让川普说山东话而大火的HeyGen就是其中的代表。类似的产品还包括FancyTech、Wondershare、腾讯智影,这些产品都具备用户通过“输入自然语言”生成一段视频,并且针对性地原生一部分素材的能力。

如果以更冰冷的技术视角来看,Sora又似乎有被“神化”的嫌疑,许多AI界大鳄指出,其技术壁垒似乎一定程度上被高估了。

2022年10月,谷歌曾经宣布过开发文本转视频产品Imagen Video。根据同步公开的技术论文,当时的谷歌工程师们就已经开始计划以24FPS的帧数输出1280x768高清视频,并且尝试在保留对象结构的同时“让对象结构能够完成3D旋转以及更多的画面形式”。

此时距离OpenAI发布著名的DALLE-2,仅仅只有半年的时间。

而针对OpenAI宣称sora是“世界模拟器”,图灵奖得主、Meta首席AI科学家杨立昆(YannLeCun)认为,根据提示词生成的大部分逼真视频,离“AI理解物理世界”还差得远,刷屏的视频仍有很多bug,生成视频的过程与基于世界模型的因果预测完全不同。

而同日发布的谷歌多模态模型Gemini 1.5,能持续运行100万tokens,“1小时视频、11小时音频、超过3万行代码”,我大胆揣测,由于sora以视频的方式呈现太过惊艳,才让谷歌成了汪峰,痛失头条。

今年1月,北京大学、斯坦福大学、Pika Labs联合发布了一套全新的文生图框架RPG-Diffusion Master,旨在解决文生图常常“货不对版”背后的两大难题:缺乏画面的空间引导,并且难以处理重叠的对象;基于反馈的方法需要收集高质量的反馈数据,并产生额外的训练成本。

所以很大程度上,真正让“中美AI角逐”看起来略显吃力的地方,不是创业者不努力,而是一是努力不过“钞能力”,二是如那位OpenAI的天才谢赛宁所言,人才、数据、算力,三者之间的差距,很难弥补。

由剪辑工具衍生出来的“文生视频”产品,往往背靠着巨大的内容生态。作为创作者生态的一环,这层属性的一体两面,是第三方“文生视频”产品在商业化上存在巨大的问题。

两年前我曾经收到过一份“文转视频”产品的BP,第一页旗帜鲜明地写着“做内容赛道的基建产品,成就中国最大的泛知识内容创作者平台”,核心竞争力是“行业率先的中视频素材库”“独创的智能文本区”“云协作”,融资目标相对保守地定在了500万美元。

这几天重新聊起Sora的时候,才发现他们没有挺过2023,当初发BP给我的朋友发了一个哭脸emoji,说:“一开始我们就错了”。

我忍不住追问他们的复活计划:“文生视频这一段一定要和Sora对比吗?就像文艺片存在的同时不影响爆米花电影的卖座,只要成本够低、操作门槛够低,文生视频工具似乎是有一定市场的,并不一定需要‘太智能’。”

朋友的对话框开始漫长地停留在“对方正在输入”状态。半晌,他决定回复这样两段话:“老板不看好中视频赛道,觉得XX就那水平,我们还给他们的创作者做工具就更没前途了……泛知识类视频的商业天花板可能只是亿级,而影视广告行业的商业天花板是万亿级的。”

同样的“出身困境”,也体现在多模态大模型衍生出来的“文生视频”产品中。这些产品所提供的“文生视频”功能,大部分都为明确的应用场景设计,例如电商虚拟主播、服装设计展示,进而导致他们最终输出的成品通常呈现出“半AIGC状态”——帮助用户在有限的模板下进行一定的原生。

还没看到产业化的可能

也不是没有乐观的声音。

“现在是整个行业技术不成熟啊,我觉得这个方向可以再跑跑,虽然Sora是SOTA的算法,但我觉得差距没大家想象的那么大,到今年年底的时候估计会接近文生图。”

当我问及文生视频在国内的前景,投了大模型公司的James(化名)这样告诉我。SOTA,全称“state-of-the-art”,用于描述机器学习中某个任务上当前最优效果的模型。

乐观或悲观,不过是大家基于自己看到的论据得出的主观结论。如果文生视频在国内有机会,不妨把问题提得再具体一点,那会是谁的机会?随着融资军备竞赛的白热化,会是现有这些大模型头部玩家之间的竞争吗?

头部大模型创业公司里,月之暗面、MiniMAX、百川智能等都在年后传出了最新一笔大额融资的消息。弹药充足,为的是应对模型迭代持续烧钱的现状,而多模态模型正是当下国内大模型的竞争点之一。

据我了解,腾讯、智谱AI等都已经在研发视频生成大模型。月之暗面也被媒体披露出正在研发通用多模态模型。

投资人的观点仍然没有定论。James判断,还是大模型公司机会大一些。Magic认为,看上去似乎是这样,变量在于国内这些大模型公司把核心任务放在了追赶GPT4和5上,而文生视频是另一条线,肯定会做,但能给多少资源还不一定。

“如果产品能立住,不排除有独立模型开发的公司也能跑出来。”

而当着眼于实际应用,只能说,不管是国内公司,还是Sora、Runway、Pika,他们的产品距离产业化应用还有一段距离。有投资人告诉我,文生视频这件事要在中国落地,还是要关注商业化的问题,或者公司有出海的能力。

再讲一个现实的创业故事吧。出海,正是AIGC创业者吴立素给公司规划的路径。

几年前我认识他时,他还在做网剧和网大,如今他公司的主要业务放在短剧和AI,利用人工智能生成三维和平面内容。2022年夏天,他成立了人工智能机构SOLART TECH(素鳞科技),并在随后一年加入英伟达inception program、Google cloud for AI startup和Amazon的加速计划。

出于自身业务需求,而不是开一场发布会,吴立素的团队去年尝试过自研视频生成大模型,数据来源是自有版权的电影和动画片。花了几百万,他得出的结论是,投入巨大,结果却差强人意,距离产业化应用比较远。

“基于工程文件去做数据标注的精准度高,但我们数据量不大,所以生成的内容比较有限。动画部分和Pika 1.0的效果相近,但真实人物会有恐怖屋效应。”

“我们团队基本上都是会写代码的影视艺术工作者,所以开始还会有一点优势。”在他看来,去年包括Pika在内的很多团队进行画面推理还只是基于图像学研究,而今年Sora团队里的成员,有越来越多的跨专业人才能进行交叉学科研究。

架不住OpenAI大力出奇迹。吴立素决定放弃自研视频生成大模型,转向基于大模型做一些小模型。他希望结合其他技术和工具,推动产品实际落地。“国内做全视频生成的公司方向都不太一样,但多是以科研的形式在做,目前没看到有商业化或产业化的可能性。”

产业应用更多的要求是精准度,而即使是Sora的呈现也有很大的不稳定性。他打了个比方,“数学公式大家都会,但不一定所有人都能用那套公式把应用题解出来。”

至于文生视频对影视动画产业的影响,也许没想象中那么大。吴立素有计算机背景,又在中传读了数字媒体专业,此后在影视行业摸爬滚打十几年。他的判断是,文生视频目前适用于不太有特定需求的内容填充和背景画面丰富。

“传统影视动画产业里比较讲究精准度的场景和角色情绪表达,纯文字直接生成比较难得到结果,通过图像(分镜故事版)生成会更准确一点。”随着Vision Pro的上市,他也更看好未来3D市场以及3D内容和AI的结合发展的机会。

吴立素做出的另一个决定是,今年公司要出海。“因为国内用户需求增长比较慢,现在更多是卖课的人能赚到钱。”他无奈道。

“向钱看”,是不少人瞧不上中国AI的原因。一位投资人朋友对我表示,从互联网时代开始,美国的科技公司就代表科技与商业的双重突破,而国内则把重心更多放在了跟随和应用,曾经我们似乎看到了平起平坐甚至超越的可能,但到了AI时代,才发现一切都是幻觉。

去年此时,很多人问,为什么中国没有产生ChatGPT,到了今年问题又变成了,为什么中国没有产生sora,在天才科学家史蒂芬·沃尔弗拉姆那本《这就是ChatGPT》的导读序中,作者建议我们把问题换成,“为什么全世界只有OpenAI能做出ChatGPT”。

我认为方向无关对错,只跟现实土壤有关。2022年中旬,曾经有一位美元基金投资人,强烈建议我关注AI发展趋势,当时就提到了GPT等,而我却一知半解,国内更是鲜有报道,现在他转身加入一家国外的科技创业公司,按他说法,“出来躺躺”。

在那本书中,史蒂芬·沃尔弗拉姆提到了“计算不可约性原理”,“人类、AI、自然界和社会等各种计算系统具有根本的不可预测性,始终存在‘收获惊喜的可能’。人类可贵的,是有内在驱动力和内在体验,能够内在地定义目标或者意义,从而最终定义未来。”

那么不妨问问,对这种不可预测的“收获惊喜的可能”,我们到底凭什么?

本文来自微信公众号“投中网”(ID:China-Venture),作者:刘燕秋 蒲凡,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK