LLM 调研（5）- 尾声

2023-07-04 18:03:01

本系列是，LLM 调研…说一下它能做什么不能做什么，能做的部分怎么做比较好。

这是最后一篇。

LLM 的热潮过去了半年多，它究竟是「鹦鹉学舌」还是具备「智能」，甚至具备可以发展为「AGI」的智能，这一本质上的分歧还没有收敛的趋势。

IEEE Spectrum 为此专门搞了个计分卡，把 AI 领域的 22 位杰出领袖的意见做了一个整理：可以看到，以 Rodney Brooks、Yann Lecun 为代表的大部分人，还是觉得哪怕 GPT-4 也没有任何发展为 AGI 的可能。少数派主要是忧心忡忡的 Hinton 和 Sam Altman。

从我前面的文章大家应该知道，我肯定是站 Rodney Brooks 这一派的。不过，我认为目前最好的分析不是 AI 圈子给出的，而是伟大的1 Noam Chomsky 给出的。

为什么那么多优秀的专家学者站在另一边？我还是觉得这跟神经网络起起伏伏 90 年，一开始就用了类似于「智能」、「神经」、「学习」、「推理」这样的词2有关。加上 LLM 让 NTP 的效果如此好，很容易让人有模型掌握了语言甚至整个世界底层运行机制，并「涌现」各种能力的错觉。

究竟有没有智能

LLM 体现的「智能」和人类的「智能」究竟有何不同，可以再简单说几句。

人类的智能有两个显著特点，即「抽象」和「泛化」能力3。

GPT-3 的训练使用了数千亿个 token，与此相对，普通儿童听到的所有单词，不排重还不到一个亿。

人类不需要那么大的数据量做训练，因为人擅长各种层次的抽象，并能够把抽象出来的认知泛化。

比如，你买一把香蕉告诉四五岁的小孩儿这是香蕉，从此以后不管是长的短的，熟的生的，黄的绿的甚至闷烂了发黑的香蕉摆在 Ta 面前， Ta 都知道这是香蕉。为什么说机器「学习」和人的「学习」完全不是一回事？因为你绝不会感到教小朋友某个东西，是在调 Ta 的参数。

除开上面这种还没有任何科学理论可以「解释」的抽象泛化能力，人还会使用数学工具进行抽象：我们通过勾股定律就能够从两个给定直角边算出斜边的长度，不需要灌大量的数据来形成一个参数庞杂的统计模型。

通过数学模型抽象后，我们同样会泛化这个模型的使用范围。并且，泛化的范围越大，代表这个数学模型的水平越高。比如，从开普勒三大定律，到牛顿三大定律，到相对论，就是在不同体系中越来越普遍地描述物体之间相互作用的关系。

有人会说，神经网络也是使用数学函数对数据集进行的压缩和编码，不也是「抽象」吗？这里有一个显著区别是，描述客观世界的「数学模型」，通常是可解释可推理的，有一套严密的因果关系。而神经网络的「模型」，通常是几十亿甚至几百亿的参数，在训练中海量的数据集为什么形成这些参数的权重和取值，没有人知道。

并且，用数学模型描述，符合「因果」的世界，老早也已经被推翻了。宇宙并不按照包括爱因斯坦在内的很多人类认为的那样运行，而是混沌的4。

这就是关于「智能」的现状：往内看，人为什么具备这样的学习和思考的能力，并且功耗如此低，还没有一套理论去解释；往外看，世界拥有高度不确定性，也没有一套理论可以去建立因果关系。

但仍需要投入

把 AGI 先放一放，LLM 和其他 AIGC 的工具，说明训练一个足够大的神经网络来模仿人脑的一些功能是可行的，这本身仍然是一个巨大的技术突破。

作为技术决策者，最好的状态还是向 Andrew Ng 学习5。至少，你应该做一些具体的尝试并评估：

AIGC 相关能力，会不会成为现有业务的一个核心竞争力：
- 比如创意类的工作，美工、广告、游戏、媒体等等；
- 比如文本密集的工作，法务、保险、人事等等；
- 别人有你没有会不会直接被踢下桌；
AIGC 相关能力，会不会让现有业务有比较大的降本增效：
- 服务类工作：客服，呼叫中心；
- 搜索和推荐：更准更高转化率；
- 效率提升：信息的记录、聚合和归纳；

如果结合现有的业务类型，上面有一些点的答案是「有可能是」，那么你就得现在投入其中，并持续关注了：因为在暴力美学到顶之后，一定会有各路人马开始优化 LLM 从训练到工程的各个方面。大量今天 LLM 做不了，或者做起来太贵的事情，明天可能就变得可行了。

我感觉只能这么称呼他，因为他的成就是在太丰富了。维基百科对他的说法是：「美国语言学家、哲学家、认识科学家、史学家、社会批判家和政治活动家，有时被誉为现代语言学之父。是分析哲学领域的重要人物、认知科学领域的创始人…」 ↩
所以 Ted Chiang 吐槽说，当年「人工智能（artificial intelligence）」这个词就选错了，应该叫「应用统计学（applied statistics）」。 ↩
所以卡尔·萨根说：「科学不仅仅是知识体系；它还是一种思维方式」。 ↩
「测不准原理」意味着空间的每个区域都充满微小的虚拟黑洞，粒子和信息会落入这些黑洞并丢失。虽然这些虚拟黑洞非常小，比原子核小一千亿亿倍，因此信息丢失的速度非常低，让包括经典力学在内的科学定律看起来是确定正确的，但实际上，宇宙充满了不可预测性。 ↩
他在各个地方都讲，这东西离「智能」还有十万八千里。但同时，也积极地推出相关教程，还呼吁让所有的小朋友都掌握相关能力。 ↩

LLM 调研（5）- 尾声

LLM 调研（5）- 尾声

究竟有没有智能

但仍需要投入

Recommend

重磅！大众汽车7亿美元入股小鹏汽车；市监局公众号发布违规广告，回应称系统故障；恒...

使用external-dns自动在dnspod上添加dns记录

Web Engines Hackfest 2023 is coming

Planning Microsoft 365 Tenant to Tenant migrations

小米MIX Fold 3将采用龙骨转轴轻薄度比肩常规旗舰

一加Ace 2 Pro将全球首发24GB内存再做技术普及者

广东鼓励校外培训先学后付模式，符合条件免予预收费资金监管

Adventure: Other Shells and Power Terminals

Diablo 1 in 2023

突破时的反包形态

About Joyk