2

百度李彦宏:文心一言和 ChatGPT 的水平差了 2 个月,但可以追赶

 1 year ago
source link: https://awtmt.com/articles/3684875
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

百度李彦宏:文心一言和 ChatGPT 的水平差了 2 个月,但可以追赶

极客公园 发表于 2023年03月25日 06:58
8969人阅读
摘要:“我们差不多是 ChatGPT 今年 1 月的水平,但大家早就忘了1月份它是什么样子。”

李彦宏当然知道有差距。GPT-4 发布之后,百度团队焦虑地意识到,他们与 OpenAI 的差距被进一步拉大。

「我们差不多是 ChatGPT 今年 1 月的水平,但大家早就忘了 1 月份它是什么样子。」

在我们与李彦宏的这场访谈中,他认真地复盘了文心一言发布前后的方方面面。技术差距、用户需求、国际竞争,以及中国大模型的创业者们该如何选择。

「创业公司完全不用担心市场是不是足够大」,谈到文心的时候他也是这么说的,「只有出来之后才有机会更快地去迭代,去提升」

「嗯,开始行动就好。」

以下是对谈内容,经 Founder Park 编辑整理。

本次对谈嘉宾:

李彦宏 百度创始人、董事长兼首席执行官

骆轶航 品玩创始人、CEO

蒋涛 CSDN 创始人、CEO

01 李彦宏:3 月 16 日内测是我拍板的,对文心一言达到的水准比较满意

张鹏:我相信百度作为在中国第一个内测类似于 ChatGPT 这样类型的产品,本身是个情理之中,但速度又有点意料之外。我听到外界一个有意思的传说,说百度经历过大概 40 天的冲刺,然后能够迅速交付产品出来,让大家非常吃惊。所以我挺好奇这 40 天冲刺到底经历了些什么?能不能给我们讲讲文心一言诞生的过程?

李彦宏:40 天这个说法我也没有听说过。百度做人工智能十几年了,我们做语言大模型也有几年的时间,就是从 2019 年文心 1.0 版本发布到现在也有近 4 年的时间,这期间文心 1.0、2.0、3.0 都发布了。去年 11 月 30 号 ChatGPT 发布,我们去试了一下,确实有惊艳的感觉,觉得比以前的大模型,尤其是在内容生成方面有很大的跃进。从那时候开始,内部确实压力比以前更大。

中国这个产业环境里,我接触到的很多人其实都在问「百度有吗?你们要不要做一个这个东西?」,我们因为这些年一直在做语言大模型,确实也很重视,从 2019 年到现在,包括我个人也花了不少时间跟团队去讨论这个大模型到底会向什么方向发展,会有什么样的应用,到底有多大潜力,我们应该投多少资源等。但是到最后其实有点被舆论裹挟着,越来越觉得我们需要尽快推出一个对标 ChatGPT 的大语言模型。

内部在发布之前两个月里,工作压力是蛮大的,大家日夜奋战,有很强的危机感。刚刚做出来的时候,内部评测确实不行,虽然提升速度很快,但是不确定什么时候可以发布。整个过程我们也不断地在内部讨论到底什么时候可以发布。我当时是拍了个板,说 3 月份一定要发。团队没有那么有信心,担心 3 月份做不出来。我就说即使那个时候做不出来,我们再去跟公众解释说,我们稍微 delay 了一点,我觉得也 OK。但我们现在就要说出去,3 月份就要发。

我这样做确实是有意的,给团队一些压力,让他们能够动作更快一点,提升的速度更快一点。

一开始我们公布 3 月份要发的时候,团队的理解是 3 月 31 号发(笑)。后来我跟他们讲,3 月 17 号我要去参加亚布力论坛。那个时候文心一言的事儿已经满城风雨,关注度非常高,如果到时候文心依然没有发,我. 其实我不知道该说什么了,别人关注的都是这个事,我去讲点别的,人家觉得肯定你很虚伪。

甚至包括一些很好的朋友、一些领导,他要问这个东西的话,你什么都不说是不行的,说一些保密的东西也不合适,我们是上市公司,投资人也很关心,跟一部分人说不跟另外一部分人说,就是选择性披露,这是不行的,所以 2 月底的时候我就说 3 月 16 号邀请内测好了。确实到最后这个阶段有一点赶,但 3 月 16 号的时候我对文心一言已经达到的水准还是比较满意的。

骆铁航:3 月 16 号文心一言大模型邀请内测,前两天谷歌 Bard 也开始公开做测试,Robin 本人、团队 都会强调百度是全球大厂里第一个上内测生成式 AI 大模型的公司。OpenAI 名义算是创业公司,受到很多人的关注和肯定,但大家对于大厂创新做类似产品就不是很包容,谷歌之前遭遇批评,百度也遭遇了一些批评,您怎么看待大厂成功或者第一个内测大模型的意义,为什么这个事情对于百度是重要的,以及大厂在这里有哪些优势?

李彦宏:文心一言发布之后遇到了一些批评的声音,算是我预料之中。我在发布会至少说过三遍,文心一言还不完美。

选择现在这个时间发布,最主要的原因是市场需求旺盛。ChatGPT 刚发布的时候也遇到很多批评,所谓「一本正经胡说八道」,很多人觉得无法接受。我记得程序员社区 Stack OverFlow 明确禁止在社区发布通过 ChatGPT 生成的内容,因为 ChatGPT 错误率太高了,很容易误导用户。所以文心一言不管什么时候发出来,都不可能是完美的,只有发出来之后才有机会更快地去迭代,去提升。

Mzc3OTg3ODU0

但是不管是着急发也好,百度作为全球大厂中第一个发布也好,我还是觉得很骄傲,因为市场需求太旺盛了,无数的人——过去不怎么联系或者行业跟我隔得很远的人现在都在问,我们怎么能跟百度合作,怎么尽早试用。客户把需求提给我们之后,我们有针对性地进行优化和迭代,很快就可以变得非常有用。对我们来说如果客户不愿意为这个付费,这个产品或者技术对我们也没有什么价值,客户如果愿意付费的话,无论多不完美,它自己就证明了价值,所以我觉得市场需求这么旺盛情况下,谁先做出来还是意义非常大的。

其他的大厂包括美国的 Google、Facebook、Amazon 都没有发出来,我觉得有两种原因,一个是他们之前没有那么重视这件事,生成式 AI 和过去搜索引擎常用的判别式 AI 是不太一样的,使用的算法、理念甚至是评判质量好坏的标准都不太一样。不是大厂之前很重视的方向,等到 ChatGPT 出来之后,再发力也是需要时间的,不是一时半会儿能够做得跟 OpenAI 一样好。

如果作为一个大厂第二个做出来,会像谷歌在美国的遭遇一样,其实谷歌的人工智能技术我觉得基础是非常好的,这么多年 AI 上花的钱应该可能不输于任何一个全球高科技公司。在这种情况下如果出来的东西还是有瑕疵的,明显不如一个创业公司的话,压力是很大的。作为市场上第二个出来,公众、客户、媒体对你的要求完全不一样了,从这个意义讲我也认为第一个出来非常重要。

02 一边炼丹,一边发电

张鹏:拿今天的文心一言和已经经过几个月数据飞轮循环的 ChatGPT 跨时空比有些不公平的,但对公众来讲,大家还是很期望有一个比较能够理解的对标,如果让你定义,今天的文心一言相当于什么时候的 ChatGPT,甚至在技术上是多少分?有没有一个比较具象的对标?

李彦宏:文心一言发布之后,我看到网上有各种各样的评测、对比,都是在拿文心一言跟最先进的大模型做对比。不仅会对比 ChatGPT 3.5 版本,也会对比 GPT-4 版本。文心一言发布的多模的东西,用文字生成图片,我也看好多人拿这个功能去跟 Midjourney 对比。用户会在任何一个方向上,用市面上最先进的产品跟百度文心一言进行比对。

其实我觉得也无所谓公平不公平,大家这么关注,对你有这么高期望,是我不断提升的动力。我也不断在讲文心一言不够完美,事实上如果全面来评测的话,文心一言确实也不如现在最好的 ChatGPT 版本,但是差距不是很大。所谓不是很大,可能就是一两个月的差别。

大约就是两个月之前,我们内部做过一次评测,用文心一言跟当时的 ChatGPT 做对比,我们大约落后那个时候的 ChatGPT 40 分左右,我们分析那些落后于他的地方,感觉差不多用一个多月时间就可以把这些问题解决。过一个月之后解决的差不多了,再去评测一下 ChatGPT 和文心一言,发现我们不仅没有赶上 ChatGPT,反而差距拉大到 70 分了。当时团队也很焦虑,为什么我们做了半天反而越来越不如人家了?

张鹏:为什么?是数据原因还是其他原因?

李彦宏:就是 ChatGPT 本身也在不断升级,它的能力也在快速提升,那一个月的时间,文心一言可能提升速度不慢,但 ChatGPT 可能中间有一次大升级,导致能力有一次质的飞跃。再仔细分析差距之后,觉得说再给一个月还能够追的七七八八。

按照团队现在的分析,我们水平差不多是 ChatGPT 今年 1 月份的水平。但是大家早就忘了 1 月份它是什么样子,今天大家已经习惯 GPT-4,GPT-4 的技术跟我们只差一天出来,是一个其他大厂也很难去拿出一个东西相比的技术,所以我觉得没关系,比就比,对我来说,只要自己提升足够快,是能够把过去做不到的东西一步步做到,尤其有越来越多的用户给我们反馈的时候,我还是逐渐看到不少亮点,不少我们已经做得比现在的 ChatGPT 要好的方向,当然,也有更多方向不如它,但我觉得假以时日我们都是可以弥补的。

蒋涛:无论 ChatGPT 还是背后的微软,包括文心一言的内测,我觉得内测是很重要的分水岭,内测后就进入到新的阶段。内测前可能被市场"裹挟",毕竟有对方先做东西,内测之后,更多人用,产品提升更快。接下来作为中国的大语言模型产品,和对方去竞争,是不是可以不用继续被"裹挟"?

李彦宏:我觉得「裹胁」不见得是坏事,当时如果没有外部压力,我们可能不会这么快推出这样水平的产品;而上线之后我也不觉得不再会被「裹胁」,恰恰相反,每天收到的用户反馈比以前多很多很多倍,反馈当中 1/3 说好的,2/3 是说不好的,不好的反馈实际上也是一种压力,每天看到的都是各种各样的问题,遇到问题,去解决问题,这就是创新的过程,自然而然会让我们迭代的速度越来越快。

这种东西你把它说成裹胁也可以,但我更希望说成反馈,我一直认为所有的创新都是靠反馈驱动的,有反馈就可以不断去创新,反馈越多创新速度越快,没有反馈就天天憋在屋里自己干,其实是没有出路的。

蒋涛:作为中国大语言模型和美国大语言模型相比,路线上未来会有区分吗?

李彦宏:会有一些不一样,中国有自己特色的语言和文化,文心一言有些地方做的比 ChatGPT 好,比如贴吧里边那些梗,你去问文心一言,基本上都能回答对,97%、98% 的准确率,ChatGPT 会是 30% 左右的准确率,可能是因为它在这方面的训练语料少一些,百度在这方面多一些。

再举个例子,白话文翻译成文言文,或者把文言文翻译成白话文,这个也是我们擅长的。再往后我们的客户要求做定向调优,他的数据进来之后,就能够在客户的领域做得更加精细化,更高的准确率。因为有些场景不能够容忍这么高的错误率,所以我们一定会解决那些问题。时间长了之后,还会觉得这两个大模型会有比较多的不同之处,虽然基础技术比较类似。

张鹏:据说百度在通用大模型上做了一些知识增强,等于做了一些额外加强,这也是百度在大模型上面的一种创新。不知道百度的通用大模型是一个什么量级的参数?也是千亿量级数据的训练过程吗?

李彦宏:肯定是千亿量级,这是一个门槛,如果不过千亿就不会出现智能涌现,这是过去实验都证明过的。但是具体是多少参数,公布意义不大,过了千亿之后,也不是万亿量级参数一定比千亿效果要好。GPT-4 出来之前,我看好多媒体猜测是万亿量级参数,十万亿量级,方向就错了。它不是靠提升参数规模,是在其他方面进行提升的。

张鹏:现在外界很多人推演说未来大模型的赛道要把技术越练越好,可能需要百亿美金以上的持续投入。我比较好奇,在你的视角来看,这是不是必然投入的量级,有没有其他选择?百度要继续「炼丹」还是率先把它应用在百度的业务形态中。我们能够想到的搜索、小度,其实都有很大的想象空间,不知道百度怎么看未来的投入和策略?

李彦宏:资金投入是肯定的,而且会越来越大。比如目前 OpenAI 百亿美金的投入量级。但是只要有竞争的话,一定会投入增大。所以,未来是百亿美金,还是千亿美金没有人知道。我们只知道随着这些投入,技术进步会越来越快,在各个行业、各个场景商用普及程度也会越来越快。

投入只是硬币的一面,硬币的另一面是收益,因为大模型确实有用,是在我们能够想到的各行各业、各种场景都有用。所以,发展大模型不仅仅意味着投入,也意味着收益。这个收益随着时间的推移,会越来越显现出来。OpenAI 从非盈利组织变成 limited organization 之后,门槛、利润要超过今天的苹果。大家对这项技术能够挣钱的量级有很高预期的,纯投入不可能发展这么快,一定是有收益的,有收益的根本原因是有效果,是市场需要,对我们的社会、文明有正向的作用,才会有收益。

张鹏:所以就是一边「炼丹」,一边发电,那么百度接下来在搜索、小度上,会很快看到文心一言在里面发电吗?

李彦宏:肯定,百度目前所有的产品无论搜索、小度、贴吧、文库、网盘、地图,每个部门现在都在加班加点,更快地把文心一言的能力集成进去,这种集成其实会很自然,你会觉得这个产品里头就需要这样的能力。对百度来说是这样,对很多企业也是一样的,大家很自然地就能够看到,我可以用到、集成、需要这些能力。

社会在以一个更快的速度去演进。今天我们回看 15 年前,比如 iPhone 出来之前,很难想象那个时候的人过的是那样的生活。如果再过五年、十年再回看 2023 的话也是同样的感觉。过去的人们可能回看一两百年都觉得差不多,人们过的就是那样的日子。但是今天你回看 15 年、20 年都觉得很不一样。今天我们看一些讲述 90 年代的电视剧,看他们的生活场景,明显和今天不一样。我觉得未来五年十年,这种感觉会更明显。

03 更可能弯道超车

蒋涛:我们最近也在观察 ChatGPT 相关的讨论,会发现大家在聊 ChatGPT 甚至 GPT 的时候,都会忘记后面还有微软的 Azure 云服务,这个行业其实可能已经在发生很根本的一些变化了。Robin 你认为在大模型出来后,对于云的改变是怎样的?另外就是,你提到有些客户场景,会涉及到具体的调优,那在这个环节里,因为国内的产业格局、产品复杂度不一样,会带来哪些弯道超车的机会?

李彦宏:我之前也公开讲过,大预言模型的出现,对于云计算来说,是一个 Game Changer,它会改变云计算的游戏规则。

过去传统的云计算就是卖算力——每秒钟的运算速度、存储等比较基础的能力,但是随着技术的演进,真正 AI 时代的应用不会建立在过去的这种地基上。移动时代是在 iOS 或者 Android 系统上开发 app,PC 时代的话是在 Windows 上开发各种软件,AI 时代的应用是基于大模型来开发的。那么是不是有一天所有的模型会统一成一个模型?这个是存疑的。两年前我试图在内部推动把语言、视觉、语音模型等统一成一个模型,当时怎么想都觉得不对,走不通。

未来的应用基于这些模型做开发,不管是搜索还是贴吧,都是基于我们已经做出来的模型来做开发,这跟过去创业公司直接用云是不一样的,那时候你用的的确是算力,甚至是具体的几块 CPU、几块 GPU 等,以后不用再担心这个层面的事情了。就好比我小时候是学汇编语言,后来变成 C 语言,现在大家都在学 Python,方便程度是完全不一样的,如果能够用 Python 写,谁还会去学汇编语言。

对于百度来说,我们的理论是四层构架:芯片层、框架层、模型层,上面才是各种各样的应用。早期大家都是基于芯片去开发各种各样的应用,现在的话,百度的飞桨应该是国内市场占有率第一个人工智能框架,在美国的话就是 Pytorch、TensorFlow。在 2023 年之前,开发者做 AI 应用的时候,比较依赖框架。但是大模型出来之后,框架就变成相对比较底层的东西,以后开发各种各样的应用基于模型来开发就可以了。底层是什么框架,其实也没有那么重要了。但是对于百度这样的公司,我们在提供基础模型的时候,用什么框架、芯片其实还是很重要的。甚至某种意义上讲,每一层都可以通过反馈不断相互加强,不断提升效率。这在内部叫做端到端的优化。

NDgxODI1OTE4

芯片层我们有昆仑,框架层我们有飞桨,模型层有文心一言,刚才我们说到大模型很需要算力,那么我怎么能够做到比别人效率更高呢?比如同样是 10 亿美元的芯片,我们怎么能够算得更快?就需要有昆仑、飞桨的配合,去更适用于文心一言的模型。这些基于端到端优化后,我们的效率会比其他大模型要高,商业竞争最终比拼的是效率,无数的案例都证明了这一点。

骆轶航:也就是说基于大模型的三层框架,最上面才是应用。在构架之外,如果我们在一些具体的产业进行应用的话,还需要额外针对不同产业做特殊训练吗?因为如果看 GPT-4 的话,很难说它能在哪些大型产业上被广泛应用,目前只是写论文、做心理咨询等。文心一言在这方面有进行额外的训练吗?基于我们现在所能做的,在大模型领域,中国的公司基于国内的产业环境和架构去做训练,是不是反而能够弯道超车?

李彦宏:我确实认为大模型的话还应该有一个中间层,就是所谓的行业大模型。在这些基础模型之外,某一个行业比如能源、金融、交通、医疗或者健康等,都可以基于文心一言的基础模型再做优化,用自己的行业数据去训练。比如金融行业在训练行业数据后,读财报的准确率就会高很多,有了这个能力,就可以直接提供服务给行业内的客户,这样研发费用也能得到均摊,反而是效率更高的事情。

行业大模型应该是未来一个比较看得见的机会,对于某些比较后知后觉的行业,如果这个时候你基于行业共性训练一个行业大模型的话,是可以把行业客户都吃下来的。

骆轶航:所以你的意思是,通用大模型的事情创业公司就别往里面掺和了,因为又花钱又花时间。可以交给主要的几个大平台,然后基于通用大模型去训练行业模型应用,这是一个比较好的生态?

李彦宏:目前看来确实是这样的。如果去做基础大模型,创业公司是没有优势的,现在跟 OpenAI 成立的时代不一样,他们在 2015 年成立,慢慢琢磨别人都看不上的一个方向,最后做出来,聚集了一批开发者,还有微软在背后的支持,才能有今天的成就。

但是今天在所有大厂都玩命往里投资源的情况下,作为创业公司去做基础大模型是没什么道理的。你又不是第一个做出来的,市场上已经有了;要数据没有数据优势,要算力没有算力优势,要生态没有生态优势。对于创业公司来说,做一些新东西、别人不太看好的东西,我觉得成功率会更高一些,社会意义和商业价值也会更大一些。

张鹏:对于技术型创业者来说,他们想知道文心一言背后的大模型跟 OpenAI 是完全一样的技术路线,还是有不同选择?未来大模型所谓的炼丹,可能有技术上的分叉吗?创业者在选择跟随哪个平台做创新时,应该关注哪些东西?应该如何选择?技术上是不是还会有新的变量?

李彦宏:我们用的技术有一些不同之处,最主要的不同一个是检索增强,一个是知识增强。检索增强是因为 AI 很容易一本正经地胡说八道,我们本身又拥有一个非常强大的,做了 20 多年市场占有率很高的检索系统。搜索语境下人们对错误容忍度很低,当问的问题有相对比较确定性答案的时候,我们通过检索增强就能够比较成功避免"一本正经地胡说八道"。

3 月 16 日的发布会 Demo 用的第一个的例子,《三体》作者哪里人,我测了好多遍,ChatGPT 的回答都是错的,我们的每一次回答都是对的,这就体现了检索增强的作用,首先要理解《三体》作者是谁?哪里人?是什么意思?再问籍贯,这些都弄对以后才能回答得出来。

第二个不同之处叫做知识增强,这是百度在大模型领域学术上的贡献。ChatGPT 里的 T 叫做 Transformer,是谷歌发明的,不是 OpenAI 发明的。ChatGPT 走到这样一个地位,不是自己发明所有的东西,实际上也吸取了很多前人的经验。Transformer 是对大模型的一个新的推进,百度对于大模型的贡献就是知识增强,我们做搜索的过程中积累了一个非常大规模的知识图谱,应该是全球规模最大的知识图谱,有 5500 亿。人对物理世界的理解,如果沉淀成知识,用成立一个知识图谱,再把它融合进文心一言,这就使得自身进化的速度会更快一些,这也是 OpenAI 作为创业公司相对来说不具备的资源或优势。

张鹏:那你觉得创业者在选择技术路径的时候,在确定性问题上做增强,对于创业团队或者商业公司来讲重要吗?

李彦宏:我认为在很多场景下都非常重要。有些场景下可能说错了也无所谓,更关注的是创造性、精彩程度以及说话语气等。但像保险理赔,如果在理赔时回答错误,就不可用了。可能在一半以上的应用场景当中,对于错误的容忍程度都是很低的。当你有知识图谱和检索增强的时候,越到具体的行业应用,越会显示出它本身的优势。

04 不管是 ToC 还是 ToB,创业机会都很大

张鹏:这个问题是极客公园的创业者社区里大家一定要求让我来问 Robin 的。移动时代我们会讲 mobile native,Web3 时代是 Crypto native,那现在什么是 AI 的 native?另外,对于创业者来说,是应该今天赶紧下场做 ToC 的产品,还是说更加认真思考一下,在某些垂直领域怎么改变商业的逻辑,对此你会怎么建议?

李彦宏:今天大模型还处于产业发展非常早期的阶段,不管是我的观察还是其他人的,都有可能发生变化。

在我看来,AI native 的特征是 prompt,就是提示词,过去没有这个行当,我们也不觉得跟计算机交互有那么多讲究。未来,就要考虑怎么写 prompt 才能把大模型的能力给萃取出来,这是一个我觉得非常有意思的行业,也是一个我认为将来最容易出现新的工作机会的地方。我有一个比较大的推测,10 年之后人类一半的工作都会跟提示词有关。

除了提示词这方面的变化,从创业的角度来看,我认为机会还是很大的,甚至十倍于移动互联网的机会。主要的机会肯定是基于大模型开发出来的各种应用,至于说应用是 ToC 还是 ToB,收费还是广告模式等等,我觉得都会有。每一个方向的机会已经大到对于单独的创业者来说,不需要去关心市场容量了,创业公司完全不用担心市场是不是足够大。

张鹏:嗯,开始行动就好了。

蒋涛:对于开发者来说,现在硅谷那边已经是风起云涌,在做各种基于 GPT 的应用、过去我们面向 API、技术栈变成,现在则是变成 prompt 编程,整个开发者生态和应用都发生了很大的变化。你觉得在未来,那些基于大模型的 ToC 和 ToB 应用会发生什么样的变化?

李彦宏:我觉得有一个很大的趋势上的变化,是未来不需要那么多程序员了。大模型很多时候能够自动生成代码,但是我们会需要越来越多的 prompt 工程师,大模型本身的能力放在那里,用得好不好全靠 prompt 提示词来决定。

提示词写得好,智能涌现的可能就会多一些,返回的结果就更有价值一些。提示词写得不好,出来的可能是一本正经胡说八道或者错误的结论。怎么样把提示词写好,既是技术也是艺术,甚至我觉得艺术的成分更多一些。

今天看起来是自然科学的人更好找工作,工资更高,但以后没准学文科更容易找工作,因为他在写提示词的时候,他的想象力和情感表达会比工科的人更有效果一些。

蒋涛:不同模型,比如文心一言和 ChatGPT 的提示词会不一样吗?

李彦宏:很不一样,底层训练是独立训练出来的。如果类比成人的话,每个人的脾气秉性肯定是不一样的,还是需要在交互过程中不断摸索,才能知道怎么写 prompt 可以获得更好的效果。

蒋涛:所以你喂它数据,它是会变化的吗?

李彦宏:会变化的。比如最近讨论的写成语什么的,一开始出来的内容你会觉得它没有理解你的要求,你跟它说不对,它就会理解这个反馈,再过两天就会理解你的需求了。

MzM0NjY4MzQ4

蒋涛:大家把 ChatGPT 的出现比作 AI 的「iPhone 时刻」,移动互联网时代有开源和闭源的竞争,iOS 是闭源的,Android 是开源的,最后开源在生态上赢得了很大的胜利。现在开源大模型出现了不少,包括 Meta 出的 LLaMa,开源模型有市场机会吗?另外,目前的行业大模型有两种训练方法,一种是在闭源的比如百度的文心一言上训练,还有一种是在开源大模型上训练垂直的行业大模型,哪一种更好一些?今天还会出现开源大模型的生态吗?

李彦宏:我觉得有可能出现出现开源大模型的生态,但最终还是一个市场的自然选择。对于开发者来说,今天选择闭源或者开源大模型,我觉得主要看两个因素:哪个效果好,哪个便宜。开源在价格上有足够的优势,基本上可以不花钱,闭源如果想要有生存空间,一定需要做得比开源好。如果开发者更加追求效果,就会选择闭源。但这是一个静态的观察,动态来看的话,开源和闭源两条技术路线,最后谁会跑得更快,后劲更足,可持续性更好,我觉得是个开放性问题,正例反例都有。

对于开发者来说,现在只能选择效果更好的,或者性价比更高的模型来进行开发,而对于路线之争我们只能是拭目以待了。

05 千亿参数量级后的智能涌现

蒋涛:我代表开发者问一些问题,ChatGPT 出来的时候正好是 NIPS 大会(神经信息处理系统大会),有 4 万名机器学习和神经网络的博士在开会,他们都惊呆了——这好像超出了我们对 NLP 或对话能力的理解,后来的解释是智能涌现能力。ChatGPT 没有用很多中文语料,中文的事实理解其实很差,但是它仍然可以做很好的中文表达,我们选智利诗人巴勃罗·聂鲁达很有名的作品翻译成中文,发现比翻译家翻译得还要好,这个你怎么看?这个突破能不能给我们技术人员讲讲,到底智能涌现是怎么实现的?为什么用很少的语料,但语言的差距却没有了呢?

李彦宏:这确实是让人感到惊喜和兴奋的地方。我们做大模型做了很多年,当用一个亿级大模型做的时候,可能做某个单项任务,或者一两个任务,相对比较窄。后来变成十亿级,百亿级,一直到最后参数规模达到千亿,同时匹配足够多的数据来训练,最后才出现智能涌现,应该说是从量变到质变的过程。

仅仅三年前,我们所说的大模型是参数亿量级的大模型,今天当我们说大模型的时候,大家的理解是千亿量级参数的大模型,这种进化和技术迭代的速度其实超过了摩尔定律的演化速度,这还是很神奇的。一旦越过那个门槛之后,过去我们觉得不太可能的事发生了质变。

如果再稍微往下沉一点看,为什么会有这样的质变?我自己的理解是,当 AI 学习了世界各种各样语言的文本,本身虽然是概率模型,还是基于过去已经出现的十个字符或者 token,去猜测下一个字符最有可能是什么,简单的技术原理就是这样。但是当实际数据量足够大,算法比较正确的时候,基本上人类对于物理世界的理解被逐步压缩到了一个模型里,如果这么来理解大模型的话,确实就是具备了智能涌现或者说是触类旁通的能力,我觉得确实很神奇。

以前人们也没有想到很多东西会是做出来了之后,才会去琢磨这个东西里面的科学道理是什么。因为我们上学都是学科学和自然,社会的进步,科技的进步都是先有了理论,在理论的指导下做技术和工程,再把它做成产品推向市场。但其实很多时候反而是工程先做到了,比如人们先发明了飞机,已经飞上天了,才开始琢磨为什么比空气重的东西还能在天上飞,由此产生了空气动力学。所以大模型也有点这个意思,先做出来了,我们才开始去研究为什么会是这样。

蒋涛:如果大家都用这个千亿模型,逐渐都能够达到这个能力吗?类似于开源系统一样,大家知道基本原理,但是你并没有开源所有的东西,其他家也能够做到吗?

李彦宏:对,这是一个 moving target,一直在变。ChatGPT 本身也在以一个很快的速度在进化,文心一言在以更快的速度进化。下一个出来的不管是谁,创业公司也好,大厂也好,做到今天这样的水准肯定是没问题的。我们今天觉得这已经很神奇了,也许再过三个月会发现这个东西怎么这么差,它怎么还会出错。人们的期望值会不断抬高,下一个出来的再去追赶之前的大模型,我认为难度是比较高的。在同一个市场上,领先的大模型一定会获得更多的开发者在上面开发各种各样的应用,一定获得更多用户的反馈。这种规模效应或者数据飞轮一旦转起来,其实后来者追赶起来会挺辛苦的。

骆轶航:Robin 刚才提到了理论和工程的关系。我们也知道无论是 OpenAI 做 ChatGPT,还是百度做文心一言,本质上做的是工程师的事情,本身对基础科技的投入不是很多,这样的事情之前有很多。这个过程有人称之「大型的暴力美学实验」,因为投入大量的资金、算力等去做。前不久一个 AI 领域的科学家跟我讲,他觉得好幻灭,大家都参与这样的实验,像炼丹一样。你知道在里面发挥的作用,但是你不知道什么时间哪次怎样的努力导致出现变化和跃迁,作为 AI 科学家和工程师很难衡量风险,因为是大干快上,各方面投入很多的过程。这也是让人们觉得很困惑的一个点,我们今天看到 ChatGPT 也好,文心一言也好,都取得了一些突破。到底什么原因导致一个大模型能够走出来、跑出来,在某些关键的无论是对话的精准度,事实语料的精准度,以及对于情感的表达方面能够成功,但是这个关键到底是在哪个环节上?是语料库的问题,反复训练的成果,还是算力的成果,哪个事情最关键?这个爆发的时刻在过去几个月的经验当中,你觉得哪个月是最关键的?

李彦宏:简单讲就是不知道,我也不知道哪个月最关键。这么做了之后,突然能力就具备了。但是我相信未来人类一定会弄清楚背后的理论基础。很多时候就是工程先做出来了,然后再慢慢研究。我们都是从小到大接受正规教育出来的,太习惯说用理论来指导实践。如果这个实践不是靠理论指导出来的,甚至当前的理论无法解释,就觉得很魔幻,觉得不可接受,觉得像炼丹、伪科学,其实根本不是,科学本身也在发展,凭什么你现在知道的科学就是真理,就一定都是对的?

还是需要通过不断的实践、创新,通过吸取各种各样的反馈来加速技术的迭代。跑出来之后,再去慢慢研究这背后的理论,没有跑出来的话,再过五年十年,人们也不会朝着这个方向去研究。其实一开始大厂都没有在做生成式 AI,没有在上面投太多资源,包括学术界,大家没有觉得这个事值得那么多人去研究,但是一旦跑出来确实很厉害,万众瞩目。我相信会有大批科学家跟进研究,研究背后的理论。当然也有可能这套理论总结出来之后,也可以再用来指导大模型下一步迭代更新,这点完全是合理的。

骆轶航:可是 OpenAI 现在有 GPT-4 之后,都不发论文、不开源。不发论文,科学家怎么去研究?我们到底怎么去配合科学和理论?

李彦宏:OpenAI 现在相对来说比较商业化,当然商业化也不是坏事,有足够的资金去投入,技术迭代的速度会更快。开源不开源完全是它的选择,如果在不开源的情况下,技术迭代速度会更快,能够更好地去造福人类,也是挺好的路线。外界的研究也不能完全指望靠 OpenAI 的公布,其实各个公司各个研究机构都已经开动了,该投入的投入,该做研究做研究,该做尝试做尝试。所以,我认为逐渐会形成一套产学研模式,各干各的事,慢慢会形成有规模的领域,甚至是学科。我不担心外界搞不清楚 OpenAI 是怎么回事,这项技术的迭代速度就会变慢,我恰恰觉得有竞争,有商业色彩在里头,技术的进步更快一些。

本文作者:Founder Park,来源:极客公园 (ID:geekpark),原文标题:《百度李彦宏:文心一言和 ChatGPT 的水平差了 2 个月,但可以追赶》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK