口述全球大模型这一年

张小珺·2024-01-01 03:37

⼈类的千亿美元AI bet。

「⼈类的千亿美元AI bet

开启新摩尔时代。」

《张小珺Jùn｜商业访谈录》推出跨年特辑。我邀请拾象创始人和CEO李广密口述全球大模型这一年——当顶级商业领袖、顶尖科学家这些最聪明的脑袋，手握数以千万计的资本狂卷一年，2023年全球大模型卷出了什么？

广密今年一整年全身心泡在大模型，一大半时间肉身在硅谷，参与相关投资。这集播客信息量非常密集。

他提到，人类这场以大模型为名的千亿美金级豪赌实验，能否将世界带到新的摩尔时代？简单说，模型发展规律会不会极类似于半导体与芯片：未来，模型能力每1-2年提升一代，模型训练成本每18个月是原来的1/4、推理成本每18个月是原来的1/10。

以下是我们的聊天bullets：

（文字是节选，完整版本请移步podcast）

1、过去一年，大模型的secret在硅谷，硅谷大模型的secret藏在这三家公司：OpenAI、Anthropic、Google。

2、回顾2023定义大模型产业的关键时刻：

to C流量端：

ChatGPT发布后，Chat=ChatGPT占住⽤⼾⼼智，很快突破100万⽤⼾、1亿⽤⼾，现在稳定2亿左右MAU，10亿美元ARR（年度经常性收入）。

从模型能⼒看：

3⽉发布GPT-4是关键分⽔岭，GPT-4代表SOTA最佳模型，谁能再复刻GPT-4是关键节点：

- Anthropic是7⽉发布Claude-2，几乎复刻GPT-4；

- Google是12⽉发布Gemini 1.0 pro版本和⼿机nano版本，pro对标GPT-3.5，对标GPT-4的Ultra版本下个⽉发布，也可以说Google追上了GPT-4；

也就是说，OpenAI⼀年前做出GPT-4，Anthropic半年前做出GPT-4，Google在下个⽉做出GPT-4，全球其他团队可能还需要6-12个⽉。

开源最佳模型就出⾃Llama（Meta推出）和Mistral（一家欧洲公司）。

- Midjourney从V1-V6图像⽣成的效果快速提升；

- Runway/Pika视频⽣成的效果突然大幅提升，这是开端，可以预期，明年视频⽣成效果能像今年⽂⽣图⼀样迅速提升；

- Google Gemini发的是多模态模型，⼏个模态数据从头训练，难度很⼤，GPT-4V还不是。2024年肯定卷多模态叙事，Google Gemini打了一个新的开端。

3、硅⾕⼤模型的融资已经是巨头定价和主导了。如，AWS、Google⼜给Anthropic投了60亿美元，⻢斯克的X.AI也要融⼏⼗亿美元。钱有限，卡有限，第⼆、第三梯队会很困难。

4、关于Anthropic：它有点像老大哥，里面核心的7-30个人做出了GPT-2、GPT-3，而且是核心lead。OpenAI很多人尊重他们。他们的research能力我觉得是全球最强，思考的问题比较本质。创始人Dario Amodei是极少数信仰Scaling Law（规模定律），加上他发明了RLHF（基于人类反馈的强化学习，Reinforcement Learning from Human Feedback）。

他们比OpenAI更早做出了Cloud，是类似ChatGPT的产品，但没发布。一度他们的模型比OpenAI好，去年这个时候ChatGPT发布，有了巨强的心智。所以，大家可能只知道OpenAI，没有太了解Anthropic。这两个团队的overlap和技术路径接近。

OpenAI正在以1000亿美元估值融资，Anthropic正在以200亿-250亿美元估值融资。我认为，全球大模型的前两名就是它们，Google排第三。

5、硅谷VC（风险投资）几乎都错过了大模型投资，也同样都错过了SpaceX和Tesla的投资。这是非常重的投入，没有商业模式，风险很大。大模型的投入可能跟VC这个产品不match，应该由另一个金融产品来支持。

在我看来，买单方就是巨头。巨头抢夺什么？入口。

Answer的形式可能会把互联网渗透率大幅拉升，以前大量长尾问题没被解决，现在可以被解决了。总体说这是新技术刺激新的消费需求。

6、2023年全球大模型狂卷一年，卷出了什么？

OpenAI⼀年内做到10多亿美元ARR，明年可能50-60亿美元ARR，或许是历史上增⻓最快的公司；

但整个市场其他⼤模型native产品ARR，全部加起来不到10亿美元，不如OpenAI⼀家；

DAU稳定在200万以上的大模型native产品是ChatGPT和Character.AI；

企业级业务探索⼤模型的use case特别成功的不多，微软copilot和Adobe较激进。

⼤模型还在早期阶段，⼤家别着急。⼤模型就像芯⽚，能⼒和成本还得再卷2-3代，上⾯的消费电⼦应⽤才会⼤爆发。明年这时候你会觉得GPT-4特别傻，做不了太多事情，但今年已经代表未来⻩⾦10年的开端。

7、复刻GPT-4⽐年初预期难。Google举全公司之⼒搞了这⼀年也才勉强接近。如果把复现GPT-4视作进入决赛圈，今年跑下来⾸轮模型竞赛决出前三名：OpenAI/Anthropic/Gemini，全球范围仅有这三家公司做出了GPT-4能⼒的模型。

8、⼀线模型公司今天的核⼼是提升智能capability，还不是做产品和应⽤的时候。capability只有⼀个北极星指标：Reasoning推理能⼒。之后最重要的要素依次是：成本、可靠性、多模态，其他是⼩事。

接下来有很多research问题，重点focus：Reasoning推理能⼒是长期重要也是最难的、Mulltimodal多模态、Coding代码能⼒、数学Math&Science如何发现新定律、SyntheticData合成数据、Reliability可靠性，包括怎么做post-training，怎么做RL，怎么做模型evaluation，还挺难的。

北极星只有⼀个：Reasoning推理能⼒。GPT⻓期就是⼀个推理引擎。

很多模型公司是基于LLaMa底座改，⼜把⼀些公开测评的数据做了SFT，看着跑分⾼，⻓期意义不⼤。

9、⼤模型行业有很强的天才科学家的人才聚集效应。

⼀群天才科学家⽤“GPU+Data+Power”帮⼈类做科学发现，天才科学家们⽜⼈相吸——全球⼤概只有200-300位天才researchers能做出实际⼤的贡献，其中100多⼈集中在OpenAI/Anthropic，20-30⼈在Google，Meta/AWS/Nvidia⾥⼏乎没有。其他科技巨头自己做也难。

即便在硅⾕，真正接近核⼼秘密的⼈也很少。

GPT-4短期壁垒在data secret，尤其是pre-training和post-training阶段的数据。全球范围也只有200-300⼈知道GPT-4 data secret，也⼏乎都在前三家模型公司，想搞清楚这个secret，⾄少得有⼏百上千个重要实验要做完，还有很多research问题要做，⽐如pre-training数据配⽐，代码⽤多少和怎么⽤，怎么做Tokenizer，怎么做RL等等。是少不了⼩⼏万张卡做充⾜实验的。

10、目前，这个行业还有很多科学问题没有解决。比如，Scaling Law是不是能继续work，能走多远？可能这是大模型走下去最关键的问题。如果不能继续scale up，那可能就停在这一代、下一代。所有人都无法回答，要继续做实验。

OpenAI的research lab文化很强。这个数据有什么用？那个架构有什么用？最后带来什么效果？他们有不知疲倦探索实验的精神，大量的实验，大量的试错。在OpenAI，researcher的卡是无限的——大家低估了前期做实验用的卡的数量，如果看“人均research用卡量”，可能是非常高的数字。

11、行业发展的核心变量是，大家是不是信仰、能不能做到Scaling Law。极少数天才科学家信仰Scaling Law，如Noam Shazeer (Character.AI CEO)、Dario Amodei (Anthropic CEO)、Ilya Sutskever (OpenAI首席科学家)，他们三位对Scaling Law贡献最⼤、信仰最强——这很像由极少数科学家推动的“登⽉时刻”。

如果是这样，全球只有极少数⼏家公司能参与“登⽉竞赛”。如果要保持在全球第⼀梯队，⾄少需要准备100亿美元的模型训练成本，未来3-5年花出去。

12、2024年是决定⻓期格局的最关键的⼀年，格局形成后很难再改变。明年Q1的Claude-3和GPT-4.5、Q2的Google Gemini-2.0陆续推出，仅上半年⼜会把模型能⼒抬升⼀个台阶。

明年是多模态叙事。明年6⽉再推出GPT-4能⼒的模型已经不算第⼀梯队，要么就今天直接做下⼀代多模态模型。

2024年跑完基本上会决定⼤概的格局，窗⼝就在未来12个⽉。如果未来12个⽉追不上去，后⾯再翻转很难。

13、对全球大模型终局的猜想：模型竞赛很残酷，最后格局很像芯⽚或SpaceX，理想化的格局可能只会剩⼀家，最领先的模型能⼒⼜强⼜便宜，让后⾯的玩家很难存活，赢家通吃。

但因“阵营”抗衡微软OpenAI之外是⼀个联盟，AWS/Google的云都和微软竞争，他们肯定要有或扶持，Tesla/Apple⼜是端侧很强，所以⼜不会赢家通吃——最终全球来说⼤概会2-3家（从硅谷辐射南美、东南亚、欧洲市场，可能辐射不到中国）。

中国会更分散，技术辨识度低，今天不知道谁最好，资⾦和⼈才会涌⼊多家。

14、硅谷巨头和它们分裂的大模型阵营：

1）最领先的是微软和OpenAI。

2）其次是亚马逊和Google支持了Anthropic。（为什么亚马逊和Google要一起支持Anthropic？为什么不是一个巨头支持一个？敌人的对手就是朋友。）

3）第三个又是Google，它自成一派。

4）还有一个关键的是Apple和Tesla。大模型最相关的三个生意——第一波是芯片（英伟达）；第二波是公有云（微软和亚马逊的云），这两个是最大的生意，可能未来模型都要跑在云上，云厂商拿未来每年营收3-5个点去投模型公司完全make sense；第三波是终端，一个是手机的端，一个是车的端。

Apple和Tesla会是一个更关键的阵营，明年Apple到底支持谁？

Tesla有X.AI，X.AI现在晚了6-12个月，能不能catch up？很关键。X.AI的人才质量很高，速度也很快，（追上来）概率大于50%。

手机又是一个非常重要的端，如果手机内存未来两年能提升4-5倍，端侧是能承载非常多的，AI公司成本结构也会发生很大变化，端离用户更近。手机肯定会继续变强非常多。

Apple从Google挖了很多人，我的感觉是他们追到GPT-4很有压力。如果做不出来，就只能投一家或收购一家。（可以选择谁？）Anthropic？因为OpenAI被微软独家锁定，不能跟其他人合作，这是最大的bug。

5）怎么看Meta？Meta推出了LLAMA，对开源世界贡献大，开源有可能未来就等于Meta。但LLAMA团队我不觉得有所谓天才researcher，人才quality比OpenAI和Anthropic落后。Meta不一定是大模型公司，它是用大模型做好自身业务的公司，甚至Google也是。

最强模型要不要开源出来？这是一个很大的question。

15、如果都可以复现GPT-4，更早复现或更晚复现GPT-4又怎么样？

1）更早复现GPT-4，⽣成的数据质量很⾼，有⻜轮。

2）更早达到能吸引⼈才和资⾦。⼤家只会bet on前三家，后⾯的4/5/6名意义不⼤，融资窗⼝关闭了。

3）当你12个⽉后到达GPT-4，OpenAI已经经历了多模态的GPT-4.5，以及更强⼤的GPT-5（预计2024年会出现GPT-5），会发现GPT-4顶多是实习⽣，GPT-5是你最强的同事⽔平，可能没⼈再⽤GPT-4——模型训练很残酷，价值持续毁灭，OpenAI训练好下⼀代模型，如果能把成本降下来，前⾯的模型⼤概率也⽤不多了。

4）模型公司壁垒，很像台积电和SpaceX，有规模效应和先发优势。但⽬前看不到很强的⽹络效应和像搜索和推荐⼀样的数据反馈的⻜轮，⾄于未来靠什么效应维持⻓期壁垒，现在还不好判断。（今天ChatGPT很像消费品）

5）有⼀个壁垒很现实——没有100亿美元模型训练的储备，是没办法在全球第⼀梯队持续竞争的，这是硬标准，这个壁垒就是资源。另外⼼智上，Chat=ChatGPT，OpenAI=AGI，开发者和⽤⼾⾸选GPT，强⼊⼝效应。

16、⼤模型往后⾛，最核⼼要关注两条主线，也可以说是“新摩尔定律”：

1）⼀条主线是智能的Capability。智能⽔平/参数量/Data/GPU持续scale很多年，每1-2年模型⽔平提升1-2代，陆续跨越临界点解锁新应⽤场景。今天GPT-4能做的事情有限，还在很早期，如果GPT达到接⼊⼿机Siri的⽔平，⼊⼝效应会有很⼤变化。

2）另⼀条被⼤家忽视的是Cost，成本是隐形最核⼼竞争⼒。模型训练成本过去18个⽉已经除以4-5倍，推理成本过去18个⽉除以10倍，成本优化再往下迭代好⼏轮没问题，意味着同样能⼒的模型推理成本还能除以100。所以，最聪明的模型还最便宜。

这两条主线决定应⽤⼤爆发幅度，native应⽤今天还没到⼤爆发的时候。

17、成本问题：

模型的训练成本分两部分，⼀部分是实验成本，⼀部分是最终⼤规模训练的成本。⼀年当中⾄少9个⽉做实验，试验是⼩尺⼨模型的训练，做⾜实验后留3个⽉做⼀次⼤的训练，就像⼀次⼤的⽕箭发射，所以3/4成本⾄少在实验，1/4在最终⼤的训练。

GPT-4⼤概是2.5万张A100训练了100天，这个是⼀年半之前，这个纯⼤训练的成本6000多万美元。但模型最⼤的成本还不是这⼀次训练，⽽是前期做实验。可能得做⼏百上千个实验，各种数据各种架构都要探索，⾜够的实验量和试错率。假如你有2.5万张A100，你花9个⽉做⾜了实验，准备3个⽉做⼀次⼤的训练，万⼀⼤的训练失败了还得重来。⼤模型训练的失败率是很⾼的。

另一点，模型参数量在70B是个分界点，70B以内能容忍很多错误，在70B及以上每扩⼤⼀倍遇到的难度指数级提升。模型越⼤，越容易出错，训练越⼤参数量模型失败率就越⾼。

还有⼀点容易被⼤家忽视，OpenAI的成本优化能⼒极强。训练完成GPT-4后，他们⼜重新训练了GPT-3.5，只⽤了1000-2000张卡，主要是成本考虑，能把成本降低很多。你看开发者⼤会⼜推出了GPT-4turbo，也是是重头训练，不是蒸馏，能⼒⽐GPT-4要好⼀些，训练成本⾄少降低了4-5倍，因为改了架构，inference cost相⽐GPT-4只是也降了10x。

下⼀代模型，就是多模态模型，各种模态的数据要从头pre-train进去。你看视频数据pre-train数据格式是⽐⽂本token复杂很多，需要⾼出⼀个量级的GPU资源，我觉得相⽐GPT-4在训练成本上要⾼4-5倍，⼤概训练时候要2-3亿美元。这个还是考虑到具备极强优化能⼒。到2025年训练⼀代模型，应该10-30亿美元不⽌。

现在训练都是H100了，H100⼤概实际跑下来是A100的1.5-2倍之间。

18、全球重注AI，搏的是什么？据估算，全球今年总计向⼤模型领域下注多少？

OpenAI今年买卡我瞎猜就有30亿美元，还不算⼈才和股票激励，全球范围⾄少x5倍，那就是150亿美元？

未来⼏年OpenAI仅训练模型⾄少还得200-300亿美元，Google200-300亿美元，Anthropic100-200亿美元，算下来未来⼏年⾄少投⼊1000亿美元纯粹⽤到训练⼤模型。

赌的是什么？⼤模型今天还处在实验科学阶段，就像⼈类对⼤脑的理解也很有限，更像是“探索发现”⽽⾮“发明创造”，提升模型智能⽔平的路径⽬前只有⼀条：Scaling Law，⽐如每⼀代模型⾄少扩⼤⼀倍的参数+Data+数倍GPU等等，是否有其他路径不知道。⾄于Scaling Law本⾝，今天也没有理论⽀撑，就是⼤量实验和试错的经验总结，也很难准确判断下⼀代模型能⼒涌现如何、什么时候Scaling Law就不奏效了。

⼤模型就是⼈类的千亿美元AI bet，这个千亿豪赌的投⼊会给⼈类带来什么？⽐如你是否相信这波AI能助推未来15年double global GDP?也有⼈说能让美国GDPx3？对全球地缘政治格局也有影响。

19、大模型公司要抓紧时间“抱大腿”。

模型的商业模式不清晰。⼤模型公司独⽴IPO也很难，被收购的概率是更⾼的。绝⼤多数都是要抱⼤腿的。

OpenAI有缺点，我感受有两点：1）ChatGPT并没有像搜索和推荐⼀样具备很强的数据⻜轮效应；2）OpenAI并不是⼀家以⽤⼾为导向的公司，⽽是以AGI和研究为导向的公司。

国内在基础fundamental研究投⼊很⼩，培养了⼀⼤批产品⼈才，有利有弊，可能只能在应⽤产品侧突破？未来也有机会拿⾛更⼤胜利果实的。

（国内公司应该）提前抱⼤腿啊，⽐如阿⾥，有阿⾥云和钉钉，业务场景好，很像微软。

20、开源模型和闭源模型/大模型和小模型：

开源模型追不上闭源模型，差距会越拉越⼤，这个很像芯⽚和SpaceX航空航天，他不是传统意义的软件开源，模型不可编码，不可解释，⼤家没办法⼀起做贡献。包括GPU要在⼀个集群训练效率才更⾼。

但开源模型的价值挺⼤，开源模型的使命不是最智能的模型，⽽是承接先进模型能⼒的溢出，做⺠主化，因为需求是分层的，可能有相当⼤⽐例的需求是通过⼀定能⼒模型覆盖的，这⾥优先考虑的是成本问题。

开源模型在2024年内追到GPT-4有不少挑战。当然不能低估技术开源和⼈才扩散的⼒量，有可能明年整个⾏业⼤进步。

未来⼤模型覆盖⼩模型是必然，⼤模型是⼩模型⽣成器。OpenAI顺⼿train⼩尺⼨模型只是时间和优先级问题，所以像之前Mistral融资我们也挺难下决定。下⼀个开源模型重要⽅向是端侧⼩模型，可以帮助模型公司分摊部分云端的算⼒成本。

⻓期格局，有两种可能，⼀个是⼤模型公司向下覆盖，你可以理解SpaceX往下做了波⾳空客的市场，还做了Tesla私家⻋交通出⾏市场。另外⼀直可能就是分层的。

21、硅谷一部分VC也很suffer。

硅谷VC未来最⼤竞争压⼒来⾃微软和OpenAI。他们之前投SaaS⼯具很舒服，后⾯微软和OpenAI⼤概率会把传统SaaS形态都吃掉。

我也在想，传统VC这个⾦融产品在AI领域是不是不太work，你看绝⼤多数VC都错过了⼤模型投资，同样也都错过了SpaceX/Tesla，都是重投⼊，看不清商业模式，失败⻛险还很⾼。这种就类似科学探索和发现的投⼊，有点像“曼哈顿计划”，适合另外的⾦融产品，微软像是美国的国央企，他们来投⼊make sense。

硅谷VC也不知道未来⾛向，都是模糊的，真正⼿上拿到船票的也不多。情绪相对乐观。

如果从VC评估标准看，硅⾕好项⽬还是很多，但估值很⾼，要承认短期是overhype了，我们过去半年也没新的出⼿。

我最欣赏的是Nat Friedman，他是GitHub前CEO。他最早期就投了Character.AI和perplexity，在这波AI里标的质量高，position比很多传统硅谷VC要好。他是个人的钱投资。

22、关于OpenAI的一点小八卦：

如果我是OpenAI的员工，我肯定也跟着Sam Altaman (OpenAI CEO)，如果Sam不在了，努⼒⼏年的股票都要⻩了。微软这边合作全都是Sam主导，微软CTO Kevin Scot也是赌上职业⽣涯相信Sam。为什么700多良将都跟着Sam？是利益问题。

⾄于Sam为什么被开掉，⾄今还没有正式解释，阴谋论⼀点说，肯定做了⾮常过激的事情，但⼜不能对外说。而且这件事可能跟微软有关。

起码OpenAI没有人员流失，AGI只耽误了四五天。

我很好奇Ilya Sutskever(OpenAI首席科学家)后面会怎么样，他现在好像不怎么在办公室出现了。我们肯定希望Ilya留下来。

有意思的是，Sam Altaman好像和乔布斯、马斯克不是一类人。乔布斯、马斯克在硅谷没有朋友。Sam在硅谷所有人都是朋友。你看Sam去国会问询的时候，国会的议员都是朋友。

我感觉Sam很像政客。如果AGI实现了，他还有他那个发的Worldcoin的币，你说Sam会是一个新形态的总统吗？

本文来自微信公众号“张小珺”（ID：benita-story），首发于腾讯新闻，原文标题：【播客更新】口述全球大模型这一年，作者：张小珺，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

本文图片来自：视觉中国

口述全球大模型这一年

口述全球大模型这一年

Recommend

Procrastination is connected to perfectionism

Counterfactual Regret Minimisation or How I won any money in Poker?

瑞士工程科技公司Almer Technologies研发工业用AR眼镜，让一线技术人员实时获得专家远...

2023年末总结和2024新年计划

Illinois may be up to bat next to build first Great Lakes wind farm after Clevel...

理想12月销量超5万台创纪录 2023全年交付超37万辆

Plotting Data in a Loop to Visualize Progress: Part 2

Balance and Beauty: Symmetry in Graphic Design

Apple Watch ban, passcode thieves and Beeper -- December 2023 in review

What is Codeforces?

About Joyk