3

百川智能王小川:大模型创业100天,我确认找到了属于我的“无人区”

 11 months ago
source link: https://lieyunpro.com/archives/489118
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
百川智能王小川:大模型创业100天,我确认找到了属于我的“无人区”
阅读时间大约10分钟以上(8379字)

23小时前 百川智能王小川:大模型创业100天,我确认找到了属于我的“无人区”

来源:极客公园
追赶GPT-4?一味追求模型代际提升很危险。

本文转载自:Founder Park(ID:Founder-Park)。猎云网已获授权。

4 月,王小川宣布下场,成立大模型公司「百川智能」。

6 月,百川智能发布 70 亿参数开源大模型,Baichuan-7B。

7 月,百川智能发布 130 亿参数开源大模型,Baichuan-13B。

两款模型在各种测评上都有不错的表现,也收获了国内外大量用户的认可。

「开源很简单,大家可以拿着自己用的,这不是你自己吹牛吹出来的。」

他动作很快,比大多数人想象得都快。就连他自己也很意外:下场动手开始做以后,进度会比预期快很多。

在 AGI Playground 大会上,王小川透露,百川智能的开源模型能力一定会超越 Llama 2。按照计划,之后百川智能将发布几百亿,千亿级闭源大模型。

几个月前,王小川要「做中国的 OpenAI」登上各种媒体的头条。

这是一句大众爱听的口号,但未必是一句准确的描述。

王小川究竟想做什么?他要怎么做?三个月的实践,取得阶段性成果之后,他对大模型时代的创业有哪些一手认知?

以下内容来自极客公园创始人 & 总裁张鹏与百川智能创始人 & CEO 王小川在 AGI Playground 大会上的访谈,经 Founder Park 编辑。

开源,OpenAI没做到的

大家可能最感兴趣的,还是你创业之后这段时间动作很快,发了两个模型:一个7B,一个 13B,而且反馈都很好。

大家都很好奇,因为一开始都认为你要做一个中国的OpenAI,但是看到你做了开源的东西,那开源是一个技术阶段,还是本身它就是未来你思考的新模型?

王小川:

开源,我们觉得是一个技术阶段,其实做中国的 OpenAI 并不代表着完全要复制它完整的路径。在硅谷跟 OpenAI 交流的时候,他们在理想上是走得非常远的,比如说他们现在做 GPT-4 的时候是需要 2 万多张卡做计算,国内都没见过这么大的规模。

他们很自豪地说他们在设计把 1000 万张 GPU 连在一块做计算模型。

1000 万张卡什么概念?英伟达一年的产量是 100 万张。1000 万张就完全是可以登月(moonshot)的这么一种计划。

另外,在怎么去做应用、做产品上,甚至做一些更广义的技术上,这可能是OpenAI的短板,或者是他们现在不是特别关注的事情。

所以在中国做OpenAI跟美国的生态环境会非常的不一样。

最近开源的 Llama 2发 布之后,在国内引起一个狂潮,大家觉得它会重新改变格局,这是 OpenAI 没做到的地方。很遗憾这个不是 Google ,而是 Facebook(Meta) 做的, Google 还是继续缺席的位置。但国内的话我们就提前看到这件事情了,我们认为未来开源和闭源会有一个并行的状态。

开源和闭源会是并行的状态。

王小川:

并行就有点像现在既有苹果的系统,也有安卓的系统。甚至在更多的公司要参与进来的时候,光用闭源的API调用是不够的,也需要这个开源模型提供 80%的服务,最后靠闭源来给大家提供服务剩下的 20%会有大量开源的需求。而之前美国没有,中国更没有类似的模型。因此Llama 一旦宣布的话,对美国是很大的震动,但中国也有热潮跟着在走。事实上,严肃的技术评测包括几种主流的像SuperClue的评测,以及一些大厂和公司的对比, Llama 和百川对比的话,明显我们现在在中文领域里面是远超 Llama 的品质。

在中国的开源模型领域,就像我们的手机行业一样,最早也是用美国的,后来就自己追上了。

你觉得 Llama 2 最近这么热,百川会比它们做得好?

王小川:

Llama 是有Llama 1 和 2。

首先,我们今年在 6 月份发布了第一个 7B 参数的模型, 7 月份发布 13B 参数的模型。在英文的指标里面,最重要的一个指标是 MMLU (Massive Multitask Language Understanding),这个关键指标我们的两个模型是优于 Llama(1)的,在中文里面大幅度领先。

我们知道 Llama 其实对中文的处理部分其实是不足的,跟Llama(1)相比,百川的英文是能够部分对标,关键指标是超过的,然后中文是明显是做得更好,很多人在对 Llama进行中文改造,但还是没有本土的百川好用。

Llama 2 发布之后,我们也能看到技术报告,里面大概有 9 个技术创新点,其中有 6 个在我们正在研发的模型里已经做到了。

跟国内其他模型相比,我们这边的思路是目前最接近的,有 6 个点我们已经做了,然后有 2 个我们没想到,有一个我们这是无效的,所以在跟 Llama2 对比的时候,我们在技术的思考里不是简单的抄袭借鉴,我们是有自己的思考的。我们认为在这个道路里面后面会有我们的机会。

今天我也呼吁,在国内大家在用的时候不要只想着国外很好,OpenAI 现在来讲离距离确实更远,年底能够达到 GPT-3.5 或者接近的水准需要时间,但在开源大模型里面我们现在已经很接近了,在中文领域现在就可以替代,也许未来还能超过 Llama,我觉得是可以做到的,我们应该有这样的自信。

所以你的下一个开源模型,你认为会比 Llama 2 更好?

王小川:

至少是在中文。在中文领域,现在已经是超越了。再往下是在全球市场的开源领域去发出中国的声音。

英文和中文都要达到比Llama2好,这件事对你是看得见、可实现的。

王小川:

我觉得有机会,在可预测未来是可能会发生的。

所以你的观点是:今天不能简单的说我们未来大模型就是走向OpenAI——闭源的中心化的模型。开源实际上是具备着很大的可能性。所以也就意味着一方面在于实践技术,展示技术能力,但它也确实有可能蕴含着商业模式和价值。

同时,开源的基础之上,中国做一个全球最好的中文模型还是一个让人可以期待的事。

王小川:

总结得非常准确。

搜索的经验,是坏的惯性,还是好的资产?

之前很多投资人认为,用搞搜索的经验做大模型肯定成不了。经过这几个月的实践,你是否验证了你当初的与他们不同的判断?搜索的积累和能力对大模型有什么帮助?

王小川:

因为今天(AI的)这个成就是OpenAI做到的,Google没做到,所以投资人的第一个想法就是这个新的技术正好是搜索的反面。他们很难分清到底是技术还是组织管理的原因。

导致这种声音的原因,一个是不理解搜索技术和AI的关系,第二个是认为搜索背景的认知会带来负向的效果。

因为搜索公司主要就是百度和Google,不太需要对外融资,也不会给投资人讲搜索是什么。尤其是上一波AI热潮更多是通过图像带起来的,大家对搜索里的NLP等技术内涵是陌生的。

从结果上来说,我们6月份发布了第一个模型。最早有竞争对手告诉投资人,百川最早第一个模型要用半年时间,其实我们只用了1/3时间就做到了,然后又发了第二个。而且不久的将来,我们会发布一个闭源大模型。

百川从第一天开始就是自研的,而且冷启动非常非常快。这背后的原因是什么呢?

今天我们知道高质量数据是大模型的基础,那什么公司对语言数据有广泛的理解呢?那其实搜索公司干20年,每天都在思考怎么找到这种高质量数据。比如说首先从1万亿个网页中找到100个高质量的网站,然后再做页面分析,包括信息抽取、去重、反垃圾,甚至按段落级别来提取内容。

这种工作,搜狗、百度和Google已经做了很久。

第二点,从人才储备来说,既要有算法能力,又要有以搜索能力为主的工程能力,这种人基本也在搜索公司。现在字节跳动做模型就是用的搜索的团队,百度的进度也非常快,包括沈向洋在做的模型也是Bing的VP过去做的。

做大模型还有一件事情就是评测。评测大模型好不好其实是一个痛苦的问题,包括推理的问题、精准问答的问题、创作的问题……有的变好,有的变差,怎么评价?所以这种评价体系也是搜索公司长期积累的一个能力,用评价来带动后续算法的迭代。

另外创业公司又比大厂的组织效率要高很多,有非常且灵活的决策体系,所有效率就会得到最大化的体现。

所以当年认为搜索干不好大模型的那个投资人,后来你跟他聊过吗?

王小川:

名字打上叉除名了,都不知道是谁了。这种只看商业不看技术的,还有特别喜欢美国回来创业的小鲜肉的,这些投资人就直接划出来不聊了。

老王说得对:小创新靠大厂,大创新靠小厂

你觉得创业者在未来这波技术变革中会有足够大的机会吗?还是说主体仍然由巨头把控?创业者该如何抓住属于自己的机会?

王小川:

王慧文虽然对技术没那么懂,但他有一句话我觉得说的特别对:小创新靠大厂,大创新靠小厂。

虽然大厂有很多人、钱、资源的优势,但组织壮大后反而会有很多很内部问题,组织效率收到了严重限制。

如果我们坚定认为 AGI 的到来,那么一定会爆发出巨大的新物种。这些事情对创业公司来说有巨大发挥作用的机会。这个从历史推演就能论证,所以只要有AGI,未来就有新的机遇。

中间的难点在哪呢?

OpenAI 是一个以研究导向为主,在现实世界落地产品的公司。你跟着它走,研究领域可以有非常耀眼的成就。但是今天怎么做应用,不管是 OpenAI 还是硅谷以技术驱动公司都还不是太擅长这个。我有自信中国在应用落地上比美国强很多。

全世界都到了一个转折点,现在技术已经就位,这是第一个难点。应用和需求方面是第二个难点,这一块叫做 model service(模型服务)。所以现在的挑战是,第一,你有模型了吗?第二,有了模型就等于有了服务吗?

兜售 API 属于服务的范畴吗?

王小川:

我觉得不是。

就像你有了无人驾驶的技术,但你真的就能造辆车了吗?显然不是。其中还需要许多技术的融合。

现在美国对于应用层比较迷茫,中国现在的问题是模型能力不足。今天很多做模型的创业公司,也是把自己的视角局限在大模型上,对其它技术栈没那么了解。

讲个最简单的例子,做模型肯定会遇到幻觉问题,时效性问题。幻觉和时效性都是光靠大模型本身能解决的。有人用扩大参数,扩大到万亿,十万亿来解决幻觉;或者用强化学习。但其实最直接的做法就是把搜索和信息检索带进去。大模型和这些结合在一块,才能形成一个更完整的技术栈。

这个技术提出后,已经有点苗头了。比如现在有一个叫做向量数据库的东西,它其实就是搜索的变通,主要应用在 toB 里面。

搜索方面,在 2018 年有了 Transformer 技术后,已经具备了语义搜索的能力。大家可能听过倒排索引,就是把这种符号网络索引起来。

在 2018 年之后,不管是我们、百度还是字节的向量都已经转向了语义搜索,背后支持这种技术的是三个巨大的向量数据库。这些技术栈和大模型结合在一起,才能让大模型有更大的发展。大家可以看到,搜索的团队经验对于做模型是有优势的。

第二个方面,现在大模型技术逐渐实用化。然后在所谓的知识计算中,还需要加入向量数据库和搜索,才能形成更完整的技术和产品。在这个问题上,大家正在逐步形成共识。

今天来讲 ChatGPT 的流量,大家开始担心是否能够持续爆发。

因此大家还需要更多探索。

我们认为在娱乐行业,在人物角色扮演方面有广阔前景,但这件事情需要中国公司进入才能做得更好。

另外一件事是如何将大模型和搜索如何结合在一起,Perplexity AI 现在做得挺好,我们则处于被动的地位,美国有机会,投资人就会找中国的对照公司。

如果这家公司,一没有大模型,只是在调用API;二没有搜索技术,只能依赖 Google,Bing 这些公司的技术,这样并不理想。

刚才你说,ChatGPT 这类的用户量在下滑,就是让大家感觉新范式未必能够一下子打穿。这是不是对创业者做应用的挑战很大?

因为根据你刚才所讲,创业者在一个技术不成熟的环境下,本身创业探索的代价就很大。而如果创业者只是拿别人的API做个应用范式的变化,其实没有特别亮眼。

王小川:

前两天 OpenAI 刚升级了 code interpreter,然后又升级了 custom instruction。对创业公司来说又形成了巨大的压力。

美国投资人也在担心,在焦虑其中还有没有机会创业公司能超过巨头,会不会做一半就被大公司取代了。

在中国的话,我觉得走大模型路线的还没有像OpenAI那样有一个占据顶端的公司出现。现在还处于“百模大战“的阶段。今天做大模型的公司有没有能力做应用,这件事中国比美国有很多看点。

追赶GPT-4?一味追求模型代际提升很危险

这也引发了一个问题,就是接下来中国谁会追到GPT-3.5,甚至GPT-4的水平

也有另一种声音说GPT-3已经足够企业去解决一些垂直场景问题。

我感觉小川你们还是致力于去追GPT-3.5,GPT-4。这个追的过程难不难?你们为什么说一定要追到GPT-4的程度?

王小川:

我觉得这是两个事情。

首先是技术的跨代进步,可能对后续产品生态产生碾压式的影响。无论从理想的角度来看,想象一个遥不可及的未来,就像战斗机的三代、四代、五代一样,在这其中每一代都可能发挥重要作用。所以在这个时候,大家应该争取在竞争激烈的领域中寻求优势。

但是在争夺优势的过程中,大家可能会面临新的困惑:到哪一代才能真正实现超级应用?GPT-3.5在美国至今尚未形成超级应用,训练一次大约需要5000万人民币,这还不包括前期准备和实验之类的成本。GPT-4训练一次可能需要5亿人民币。到GPT-4.5代,成本可能会达5亿美元。

因此,如果没有超级应用,单纯追求技术提升也是非常危险的。所以我们需要在这个领域同时追求第四代和第五代技术能力的提升,同时要有超级应用。否则,我们可能会突然面临两个方面的升级压力,这两者都需要同时升级才能取得成功。

所以每一波型的技术里都应该能够诞生有价值的应用。

王小川:

你刚才说的很对。

在B端里面GPT- 3 基本就已经能用了,在C端没有能用的原因我认为还是时间太短。

加之大家把目光太过聚焦在OpenAI上,它不是一个产品公司,不是一个能做超级应用的公司。

能做超级应用不仅需要技术追赶,也要对产品有一个足够的理解。这件事我觉得年底是水落石出的时候。

“小川适合做大模型”,“做了20年搜索,没人说我适合做搜索”

大家有没有可能高估了OpenAI?或者说我们认为OpenAI很难被超越的一点就是因为它有数据飞轮,你如何理解这个,数据飞轮是真实存在的吗?

王小川:

今年年初在提数据飞轮的事情,当时特别恐慌。用户的请求给了它,它知道用户要什么,然后就更好地去升级模型。

在目前看的话,这个问题并不严重。

像 Llama 2 推出之后,大家看到在微调阶段,数据要精而少,而不是精而多,现在大家开始逐步形成共识,技术的秘密不是在飞轮里面,还是时间的技术积累。

像 Claude 的公司 Anthropic 的技术实力也涨的很快,OpenAI 远远它用户多,这也证明了数据飞轮的概念被证伪了。

或者说有可能它里边真正有价值的数据都体现在跟人对话的技巧上,我记得最早的时候,它的对话方式就挺“木讷”的,但现在就感觉更有人性。

王小川:

这个东西感觉都不多,更多还是在于它的数据集里面,不管在 Pre-training阶段还是在微调阶段,怎么去搞优质的数据?如何去配比等,这是它的核心的能力。尤其是我听他们聊天说,一方面 GPT-4 在训练 GPT-3.5 ,让 3.5 更高效的工作,同时用 GPT-4 去生产 GPT-5 所需要的部分数据,在做迭代过程的优化。它的迭代在内部是使在线服务更好,同时生成未来的部分数据,我觉得这是是内部的一个飞轮。

所以如果 从Llama 的角度去看,通过开源也有可能能够去 deliver 一个不断在提升技术水平的模型。但如果要从 OpenAI 的这个视角,可能在某个阶段也需要有足够的用户和数据。

王小川:

开源的、闭源的,还有应用,事实上今天大家都还在铺开来做,跟现在美国西部一样还在扩张的阶段。

所以今天对于一个创业公司,比如像百川,就不会轻易的只是说我只配合了某一个方向,我要保持战略模糊也好,或者叫可能性的丰富也好,就这些维度可能都会下注。

王小川:

对。我这次创业比较有意思,很多人说小川你特别适合做大模型,我做了 20 年搜索,从来没一个人说过小川你特别适合做搜索。

在国内做搜索,比百度晚了3年,这种追赶是非常艰难的。而今天这个积累和经验放过来一看,前面都是没人的。原来想的很难,已经晚了好几年了,但今天在我看起来处处都是机会。因此只要我们有足够多的能力,我们处处都可以在里面试,也看看今天是否能够改变大家原搜狗的这种印象。

不要盲目崇拜,中美会有不同的 AI 故事

小川说的这点我还挺有感触的。你终于站到了一个无人区。

大模型这件事,可能很多人觉得要学习、追赶 OpenAI。但当你真干了这件事,才会真的找到距离和路径。

王小川:

对,不用那么崇拜。

我记得 2016 年 AlphaGo 之后,我当时提了两点,第一,如果(AI)能够预测下一帧视频,那就是 AGI 的到来。

但是说完之后就过了,你也没有能力去做,动力、能力、条件都没有。后来说如果机器掌握语言,那么强人工智能也会到来。现在其实已经开始验证。

所以我觉得我们自己有很多想法,并不是走在后面的。只是原来各种时机、条件不成熟。这就像,一个学霸说这件事已经可以解了,你这个学霸,也不是说一定要把作业给你抄对吧?

别人告诉你可解,甚至大的思路给你了,我觉得我们自己就会做了,不需要盯着别人的作业打小抄。

所以这里面你真正的乐趣不是实现和复刻了别人,而是在这个无人区里在探索出一些大家还没有抓到的东西。

王小川:

是的,我觉得这次有机会在部分领域做到领先。

是有这种可能性的,所以中国和美国,百川和 OpenAI,可能它并不是一样的故事。

王小川:

确实会不一样。中美本来就不是一种制度,一种体系、文化,所以最后长出来的,不管是技术问题还是应用问题,都会不一样。

主要工作“和同事聊天”,百川智能刚刚突破 100 人

你平常的工作都怎么安排?你的时间怎么分配?很多人都说,算力重要、人才重要,但我觉得只有真正创业的人才知道什么东西最重要。所以我就想问问你时间花最多的地方在哪?

王小川:

我现在时间花最多的,是跟我们的同事聊天。

王小川:

对,这聊天在过程当中的时候,其实是一个不断形成共识的过程,就是把大家的这种认知、养分、外面信息汇聚,使大家形成同一个大脑。

因为我们知道Top-Down可能会走偏。比如说这个 Google 为什么没做成?第一个 Google 本部做的时候有它惯性。数据拿不到,上了线之后成本提升,没有具体用户收益,所以有创业的窘境。

Google Brain的话,它是Button-Up的。它的研究员很自由,什么都干,或者汇成一个力量,所以他们其实很多看到了大模型,但是没法集中一块做,力量是分散的。那Deepmind是自顶向下的,公司要求做什么,大家做什么。它做了AlphaGo,AlphaZero,AlphaFold,现在开始走向了氢能源、核聚变、量子计算,但是离大部分已经远了。

在今天其实Top-Down、Button-Up做起来叫上下同欲,使大家从这种理想上到技术上、认知上充分地对齐,变成一个事儿。所以我认为跟大家更多日常的交流,会使这个大家变成一个大脑,这是我最重要的工作。

嗯,有意思。所以一个小的团队去发挥它最大的能量,反而是所有人能够同喜同悲、同欲同求 。

王小川:

这很重要,今天也不讲组织管理了,就是大家变成像一个人做。百川现在是 100 人,昨天刚到 100 人。

信心的变化,百川的进度比想象中更快

过去几个月,投身大模型,你的热情没有变化,但是信心有变化吗?跟你一开始的预期相比,是更难了?还是符合你的预期?

王小川:

如果讲真话,发自内心的,我觉得比我想得更简单。

预期就是,一开始都知道很多(困难),国外好几年的积累,算力、服务器......但是当你和同事在一起工作的时候,当大家在共创的时候,我们实际的进度、节奏都比预期要快。

原来我们预计是 Q3 发一个 500 亿的模型,然后 Q4 发布一个 1750亿的。

但事实上,这些东西不会变,但过程中,应用的进展速度,模型开源的速度,都比预期快很多。

而且也更快地,今天我们可以开始说,不只是在国内做到最好,我在国际舞台上开源。

开源很简单,大家可以拿着自己用的,这不是你自己吹牛吹出来的。开完之后,我们有信心能在国际舞台上拿到非常好的位置。

所以跳到水里之前是不知道深浅的焦虑,真跳进去了,发现其实能踩到底了,就踏实了很多?这件事真的这么简单吗?

王小川:

我是一个做事还比较谨慎的,我当时还在看,然后我们的联创一脚把我踹进去,说开始干。然后我说好吧,宣布下场开始干。否则还可能更晚,才会觉得自己准备 ready 了。但一旦下场之后,会发现比自己想的时候,会跑得更快一些。

狂热之后,最近关注的技术进展

你最近在关注大模型的那些技术进展?有哪些 paper 是让你感到比较兴奋的东西?

王小川:

第一,光看论文,今天其实已经不重要的。你看不完的。

基础就那些东西。而且今天 OpenAI 已经不把好论文发出来了。发出来的都是信息量不大的论文,收获是有限的。

同时大家因为之前进入狂热(状态),我们叫「度日如年」,每天过得更(技术进步)一年似的。

度日如年是因为它跑得快。

王小川:

对,不是枯燥。每天都太多新鲜事了。大家神经已经刺激到了一个高点,有一点疲软的状态。

说回来,最近有几个技术进展,我觉得非常厉害的。

一个是,大概一周多前,OpenAI 推出了 code interpreter,这是重大的一个突破,但在国内好像没有形成新一轮的媒体狂潮。

之前的狂潮大家已经享受过了,这次的进度,code interpreter,我觉得是媒体没有当量地去正视它报道它。

以及昨天的一个小升级,定制自己的 instruction。

代表了它从模型 LLM,开始走向 Agents。

里面会描述说「我是谁,我有什么特点」,你这个大模型会扮演一个怎样的角色,有什么特点?形成这样一个关系,是从模型是不是 Agent(角度来看的)。

这两个领域,是今天大家关注报道不够的。

创业的决定,终于等到「适合小川」的无人区

最后一个问题,你刚刚提到,你是被「踹」到这个创业的局里。我也知道你很早就是AI的狂热分子,从 AlphaGo 的时候就是。

最终下决心,成为一个 AGI 领域、大模型领域的创业者,老王(慧文)也好,中国这波浪潮也好,他们对你的决策产生了怎样的影响?经历了这样一个过程,你内心发生了怎样的变化?

王小川:

心路历程其实挺长的。

在搜狗的时候,到后期。第一,错失了推荐引擎,也跟腾讯做了战略结盟,在这种情况下,没有新的技术突破的话,发展上是非常受限的。当时把搜狗并给腾讯的时候,我在挑战一个更有意思的事,就是把生命变成数学模型。就像我们说,牛顿是把物理变成数学模型。

之前在极客公园的平台上,我都在讲向生命学习。

生命是什么?这是我思考了20年的一件事。

怎么把生命变成数学模型?这是我关心的。甚至在研究中医,怎么把生命变成数学模型,(后来)发现这条路不一定是能走通的。

怎么在科学范式里,对医学有新的突破,这是我特别感兴趣的事情。我读医学的论文比我读计算机的论文多得多,我读了上千篇医学论文。

21年发生了什么事呢?21年的时候大模型已经开始有一些机会。那时候我们做了百亿模型,来解决搜索变问答的问题。

其实之前做输入法,就已经在搞「预测下一个词想说什么」,然后怎么改写,搜索是变成问答。其实有摸到那个门,但是那时候技术是没有突破的。

所以你知道把生命变成数学模型,我是很感兴趣的,所以大模型这波到来之后,我第一想法不是做大模型,我想说,是不是今天可以在生命领域做个Health ChatGPT?健康的 GPT,一个数字医生?

你在从应用的、解决问题的角度思考。

王小川:

对,在思考这个问题。然后又想,如果你今天做一个垂直模型,它可能会被大模型干掉。通用智能会干掉专有智能,对吧?

但是这种情况下,我们发现,如果只做一种 HealthGPT,或者只做一个数字医生,这是不够的。

最后就说,还是要做大的模型。

(下场做大模型的决定)是转了这么一圈转回来的,并不是觉得之前自己有积累之类的。

但是做大模型,发现其实(之前的积累)是挺相关的,比如语言相关的处理。

甚至极端一点说,ChatGPT 第三个把语言模型做成超级应用。前两个,一个搜索,一个输入法。

感觉你不把这个也干了,对不起之前干的那两个。

王小川:

对,所以发现之前的积累在今天确实用得上,这是之前没想到的。

因此我很感慨,老天对你很好,给了你一个机会。在搜索画句号的时候,还有一次机会,把以前的经验用来做一件原来做不到的事。

现在说,大家没人说过「小川适合做搜索」,但都说「百川适合做大模型」,对我来讲,是一件非常幸运的事。

这是你当初决定要做的原因。

现在几个月下来,大家可能会觉得这件事很难,OpenAI都没能变成一个超级赚钱的公司,硅谷很多人都质疑它的商业模式。所以大模型对创业者会有这方面的压力,你感受到这个压力了吗?

王小川:

我都是很亢奋的。

因为以前都是在百度的阴影下工作,现在是无人区,这件事对我来讲正好是我想做的事,而不是说前面有个领导者在里面,然后你跟着追。对我来说,这是我喜欢的,一个新的探索。

特别感谢小川今天给我们做了走心的分享,也恭喜你终于迎来了属于你的无人区,希望在这里能看到更美的风景,掌声献给小川,加油!


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK