GPT-4有哪些改进突破？

刘志毅发表于 2023年05月08日 03:52

摘要：GPT-4三个方向的提升与三个层面的改进

1.7GPT—4有哪些改进突破？

大家好，欢迎来到见闻大师课《AI时代的科技新范式》，我是刘志毅。

GPT-4是什么呢？是一个大型多模态模型，它做出了三个方向的提升。第一在特定功能上，比如创作歌曲、编写剧本和写作风格。第二是视觉输入，接受图像作为说明分类分析的一个对象。第三是接纳更长文本进行搜索扩建，包括内容生成。我自己对比GPT-3.5和GPT-4的感受，3.5就像一个高中生水平，更多的是对数据文本进行简单的逻辑化处理。4的话，只要Prompt做的够好，完全能生成媲美于大学教授水平的研究成果，而且可能会更加有深度和跨学科的研究。

它的改进怎么实现？其实就三个层面。第一是对数据集进行优化，使用公开数据集和自生数据集进行训练，然后进行相应的推理训练，这是最难的地方。即使拿到公开数据集，怎样让它在一个大模型中获得优化好的结果，这是一个很有挑战的事情。第二就是建立了预测扩展的深度学习栈，其实就是开发了基础算法和优化器，说白了就是在模型落地的时候，发挥充分性能，需要进行相应优化。第三个就是强化学习，在实验中发现了预训练决定了模型的最后成果，而强化学习测试效果并不佳，就是因为3.5到4的时候，在30%的情况下，并没有获得一个比3.5更好的结果。为什么？

猜想有两个结论，第一，GPT-4这个模型，几乎是跟GPT-3.5同一期做的训练，只是稍晚一点，而且是更早的或者同期的数据集。说明什么呢？说明它并没有用更高级别的参数，有的人说3.5是一个1750亿的参数，可能4是一个万亿参数，我认为这个可能性不大，否则它的表现不会是这样的。

第二点就是刚才有人问到在多少级别的指数上能够涌现出智能？这个问题没有答案。到现在为止，没有人能解释在这个参数级别上涌现出智能是为什么。所以在这个情况下，不能去假设万亿参数之后会有更高级别的智能。国内有些企业说万亿参数，我觉得意义不大，因为参数只说明了模型复杂度，并不说明有效性。GPT-4很有可能是对特定的功能，比如推理能力，包括做题的能力等等进行优化，但它也因此在某些能力上反倒弱化了。具体要看数据集的表现，这一点证明了刚才讲的结论，它不是一个全新的生态，是对3.5的模型优化。

接下来就讲范式的问题，刚才已经提到了，做科学研究有不同范式。第一范式是做实验，各种物理学、化学怎么实验，第二就是理论推导。第三是计算机出现之后，比如做matlab相关的一些东西，数学仿真、数字仿真，包括制造业仿真，都在这个领域。

最后数据科学，大数据也是一个范式，这里又要提到微软了，因为数据密集型的第四范式概念也是微软最早提出的，而且2009年的时候就出书了。再往下看第五范式，刚才讲的机器猜想加科学智能，AI4Science。我刚才说微软为什么做得很好，虽然他今年才建立，但是已经做了很多事情了。这里副总裁说的是什么？它充分利用人工智能能力来开发新的科学发现工具，科学发现工具就说明了刚才的观点，它直接面对科技创新领域最底层的问题。

我相信未来的驱动方式，就是AI必须参与进来，去监测这些结果，然后推动基础研究的范式变化。反过来看微软做的项目，剑桥团队跟诺华做了生成化学的项目，通过learning的方式直接生成新的生成化学的相应结果，然后获得一系列指导，而这些指导在没有用AI的情况下是无法得到的。

这里总结的就是通过巨型复杂系统对撞的方式进行机器猜想。巨型复杂系统的概念是钱学森老师提出来的，就是在巨型复杂系统下能获得智能，然后通过不同的算法和场景，也就是把算法和场景跟数据结合起来，获得不同领域专业知识，获得潜在性结果。所以范式变化对我们很重要就在这里。因为我们在基础科研领域长期落后，当然也有方向比较前沿，比如天文观测等等，但很多落后的领域，在这些方面就要去做到创新型的工作。

这里我只举一个例，比如说芯片卡脖子这件事情能解决吗？我给大家解释一下，并不是我们不知道怎么制作芯片，因为这套制造芯片的工艺导致了两件事情，第一，全球没有一个国家可以从设计到制造全部独立完成，光刻机是荷兰的，日本又要做组建，国内还得生产台积电做制造等。但美国的好处就是很多基础科研的专利，包括跟芯片有关的技术是其自己发明的，说白了美国享有先发优势。在这个情况下困难在哪里？就是所有的核心专利，技术制造的工艺方式全部被垄断了。

这时候就没办法了，可以通过荷兰阿斯迈尔公司做光刻机，可是光刻机背后的一系列技术，包括知识产权都是美国的，敢卖给中国，那就断货，不让你制造下一台，这是最大的问题。在这个情况下，我们有没有办法跨越？是有的，在基础材料科学上，比如说不用硅片，用石墨或者其他合成材料能够达到相应工艺，就直接跨越了现在制造主流硅芯片的技术了。在这个情况下，创新的价值就在这，如果真的能够跨越它，在材料科学上做出决定性突破，而且国内已经有人在做了，那所谓的卡脖子就没有意义了，因为完全不同的技术路线下不用谈这个。

这就好像为什么现在日本的电动汽车做的最差，很简单，因为日本将全部或几乎全部的资源都投入到氢能源车，想垄断技术路线。全世界80-90%的氢能源车，用氢的知识产权到日本。日本的算盘很好，垄断然后生产，世界各国都用，它就变成汽车霸主了，结果人家一看，虽然新能源车有很多好处，但因为垄断太厉害了，所以中、美、欧都不采纳这样的技术路线，导致现在日本一塌糊涂。因为成本很高，光靠一个国家是运转不起来的，又没有相应持续的技术迭代，甚至每年消费在氢能源车上只有20-30%。这就是我们对技术的基本判断，无论要跨越还是怎样，都需要结合当下的技术发展形态和模式去看待。

以上本期课程的主要内容，关于课程内容有什么问题或建议欢迎留言。我是刘志毅，我们下期再见。

- E N D -

加入刘志毅「AI时代的科技新范式」

— — 《AI时代的科技新范式》目录— —

风险提示：大师课为甄选第三方合规机构人士，讲授投研理论课程之平台，所授内容不构成对任何具体产品的买卖或投资建议。平台课程所表述的意见仅供学习与参考，不代表华尔街见闻意见或观点，也不解决用户特殊的投资目标、财务状况或需要。市场具有波动性和不确定性，平台不对任何与您依赖课程观点或信息而遭受的损失承担责任。投资有风险，请谨慎决策。

GPT-4有哪些改进突破？

GPT-4有哪些改进突破？

Recommend

Disenchantment: Three Graphic Novels Announced for Netflix Show

Twitter Circle 'Security Incident' Made Private Tweets Public

真有这么恐怖？巴菲特将AI的危险程度比作原子弹

配備 Core i9、RTX 4070、240Hz HDR 螢幕，Lenovo Legion Pro 5i 電競筆電實測

Find the sum of all values lesser than the element of the Array

字节攻势凶猛，本地再生变数

Christie: Trump Campaign a 'Vanity Exercise' to 'Feel Better'

7天涨粉400万，谁制造了“挖呀挖”？

别再劝人考公了

碰到好多起缺斤少两的事件了，求推荐一款精确、便携的电子秤

About Joyk