1.4 ChatGPT的技术突破

刘志毅发表于 2023年05月04日 06:29

摘要：ChatGPT实现了哪些技术突破？

1.4 chatGPT的技术突破

加入刘志毅「AI时代的科技新范式」

大家好，欢迎来到见闻大师课《AI时代的科技新范式》，我是刘志毅。

一系列新技术的突破就是图中左边的这些学习。针对右边列出的几点，国内厂商在哪些方面做好了工作？哪些方面做的相对不够好呢？

第一，基于Transformer模型架构可以做，因为已经开源了，大家都可以用了。

第二，预训练与微调，预训练是最难的，怎样对数据集在千亿级别参数上进行训练，这是最难的。我的理解是大部分厂商其实还没有完成这个工作，正在进行的，一是数据集建构，二是在不同模型参数上微调后，进行训练达到好的效果。

第三，多层架构，这个其实比较容易，难点就在刚才讲的分布式部署上，怎样让多层架构在芯片上发挥最好的能力？

第四，动态拓展，增加模型层数和参数量提高模型的性能，是经验上获得的工艺水平的提升。比如商汤在2015-2016年的时候，已经做过数百亿参数了，做过之后，再从数百亿跳到千亿，毕竟比从0开始要好，对算力的应用能力、模型部署能力都会提升。

大家在前几周看我们公开的日日新模型觉得好神奇，效果还不错，文本意义也不错，尤其在图形生成上。原因是第一，在模型训练上之前已经做过数百亿的参数了，在做上千亿的时候相对来说肯定还是靠谱的。第二，在NLP领域，中国人做的不够好，但是在视觉领域，其实我们是做得很好的，至少没有落下一个时代。

我们统计过，比如商汤为例，它发的论文总量基本上跟全球最顶尖的大学MIT或者Stanford差不多，在有些领域比谷歌还多，说明在不同领域的积累不一样。反过来为什么国内厂商特别愿意在做大模型时展现多模态，多模态就是除了文本以外，还有视频、图片之类，很简单，如果跳过核心的推理能力，做多模态对大多数国内厂商来说是一个更容易的事情。

做多模态是简单的文本和视觉的迁移、学习对齐的任务，再加上模型训练功能。要让模型产生推理，产生逻辑这件事情难度太大了，这是实际情况。即使GPT-4没有提供文生图的能力，它提供的是读图能力，但如果一个厂商称不仅能文生图，还能图生文，加上音频等数据的迁移，这时候我们能说它的总体能力超过了GPT-4吗？我觉得不能，因为它只是在多模态展现上，在难度更低的事情上，实现了超越。

但对GPT这条路线来说，难度在于怎样在生成的时候既有推理能力，又能实现多模态。理想情况下，应该是输入给模型一句话，比如画一个符合宋代风格的建筑图设计纸，参数跟故宫一样大，它就能够生成一个完全的图纸。“跟故宫一样大”是最难的，这时候它要自己学习故宫是什么，图纸是什么，时代是什么。这些事情已经实现了，有很多基于GPT-4的厂商，自己对接接口后开始开发这个功能。

这就是Altman所讲的OpenAI为这个时代提供的，是一种推理能力，模型的智能提供给大家，然后大家基于这个接口去商业化，比如画图纸、做设计、做PPT，这是我们看到的实际情况，反过来国内的生态也是这样，大多数企业都没有在做大模型，应该在5家以内比较合适。就好像移动互联网时代起来的时候，运营商提供的基础设施，提供的基础逻辑能力，再往下吃到福利的其实是BAT这样的互联网服务提供商。

大模型时代也是一样，几个大企业做完大模型可以了，然后往下去做产业落地，这是我们看到的情况，但还是存在一系列技术难点。一是对本身的掌控，比如训练时间长、资源消耗高、准确率有待提高，这在GTP-4上都有所优化。再往下是容易产生误导性或者生成结果的一致性不够，这里指的是什么？有一个专门的名词叫做推理幻觉，幻觉的意思是它不是有理解的、有意义的智能，而是一只迷宫里的老鼠，在推测你喜欢什么或者哪个答案更偏向于人类理解的智能能力，所以它产生误导性或生成结果的一致性很差，都是因为这个原因。

即使做到GPT-4，Altman也说，我们没办法认为它是一个超越人的模型，它仍然会存在错误，在于底层数学逻辑就是这样。再往下就是跨模态性不够，GPT-4其实也是对图形的阅读能力，没有文生图，是另外一个模型做了文生图。再往下是对话长度限制多，语言支持不够，这在GPT-4已经被解决。

风格和语气的控制，我要讲一下，因为我天天在用，如果想要获得一个更好的Prompt结果，现在有一本国外学者写的书，就是怎么样用GPT-4给它语句能获得更好的结果。大家如果想用它，就是要在这一方面加强。

举个例子，比如说我现在写一个文章，这个文章是财经领域的，但是我怕自己能力不够，我下达指令以什么为主题，假设你是纽约时报或者Times的首席作者帮我写这篇文章，而且要以写纽约时报哪篇文章或者是哪一类文章的风格来写。

我有三点要求，第一点要求文本能力不能弱于发表在Times上的文章的能力；第二点要求要符合中文的表达习惯；第三点要求生成的内容不能是其它材料的机械组合，而要有深度洞察的观点。这时候这个模型就会代入它是一个纽约时报的作者，按照这三点要求生成一篇质量很高的文章。前几天我也做了一个实验，假设你是鲁迅，对乌克兰和俄罗斯关系怎么看？请写一篇文章批判，人工智能也写得很好，甚至说文章里面有哪几句话特别适合批判。这时候就是带入人格，带入风格，对语气进行控制，用很长的Prompt提示语句来获得相应功能。

如果有一天真用到了GPT或其他人工智能，Prompt工程是最重要的之一。比如今天我招一个文员，他的核心能力不是怎么画PPT，而是怎么教GPT画ppt，怎么写Prompt语句。考试方式很简单，现场出一个题，两个人都用GPT画，然后看Prompt语义有多高，这个就是人机协同。我们的能力核心变成怎样去训练机器，不是直接干，一天能写好的PPT超不过100页，但是只要有合适的Prompt语句，一天内就可以完成强度很大的工作，时代的变化在这。

对大多数人来说不应该也不需要去学习，怎么做算法部署，怎么做预训练数据集，或者怎样把模型做更多迭代优化，需要做的是在它不断进化的能力过程当中，学习怎么与它深度协同。

有机会我们可以分享一下，有一本英文书分了很多类，比如在什么样的角色下去问GPT？以什么样的风格去问？在什么功能上去问？甚至可以设定告诉GPT你不是GPT，你是维基百科，我现在问你几个问题，你要以维基百科的方式告诉我答案是什么。这时候你再问他，就会以百科的方式，以表格的方式，或者以其他不同方式来回答。

以后有机会我可以给大家做一个专门分享，一边弄一边做演示，应该怎样做Prompt工程，这是非常实用的，可是国内还没有总结好，这件事对很多人都很重要。

最后是创新性有待提升，创新性就是它无法进行在线实时学习，而且没有创造新知识的能力，是限于模型的问题，这个模型本身有一些限制，导致了限制。

以上本期课程的主要内容，关于课程内容有什么问题或建议欢迎留言。我是刘志毅，我们下期再见。

- E N D -

加入刘志毅「AI时代的科技新范式」

— — 《AI时代的科技新范式》目录— —

风险提示：大师课为甄选第三方合规机构人士，讲授投研理论课程之平台，所授内容不构成对任何具体产品的买卖或投资建议。平台课程所表述的意见仅供学习与参考，不代表华尔街见闻意见或观点，也不解决用户特殊的投资目标、财务状况或需要。市场具有波动性和不确定性，平台不对任何与您依赖课程观点或信息而遭受的损失承担责任。投资有风险，请谨慎决策。

1.4 ChatGPT的技术突破

1.4 ChatGPT的技术突破

Recommend

Apple’s unionized Retail Store workers seek tips

收藏！《2023年全球CMP抛光液产业技术全景图谱》(附专利申请情况、专利竞争和专利价值...

定位、变现和套路

BoozeBud calls last drinks, placed in voluntary administration

流行病：西方国家口咽癌病例急剧增加

与姐姐谈恋爱的“假靳东们”，如何在视频号闷声搞钱

新玩意 144｜少数派的作者们最近买了啥？

AI-Generated Pic of Selena Gomez at the Met Gala Fools Millions | Entrepreneur

Static linking considered useful

Philips' Sonicare 4100 Rechargeable Toothbrush hits 2023 low at $35 shipped (Reg...

About Joyk