4

1.4 ChatGPT的技术突破

 1 year ago
source link: https://awtmt.com/articles/3687942
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

1.4 ChatGPT的技术突破

刘志毅 发表于 2023年05月04日 06:29
摘要:ChatGPT实现了哪些技术突破?

07aeb3e7-f4ca-4207-befb-c987b3dc7011

1.4 chatGPT的技术突破

加入刘志毅「AI时代的科技新范式

ec4c7e81-75a8-4b96-95b8-45a840d3c8ab.jpeg

大家好,欢迎来到见闻大师课《AI时代的科技新范式》,我是刘志毅。

一系列新技术的突破就是图中左边的这些学习。针对右边列出的几点,国内厂商在哪些方面做好了工作?哪些方面做的相对不够好呢?

6b064e6e-b3a0-4bbf-b316-116d146b0c18.png

第一,基于Transformer模型架构可以做,因为已经开源了,大家都可以用了。

第二,预训练与微调,预训练是最难的,怎样对数据集在千亿级别参数上进行训练,这是最难的。我的理解是大部分厂商其实还没有完成这个工作,正在进行的,一是数据集建构,二是在不同模型参数上微调后,进行训练达到好的效果。

第三,多层架构,这个其实比较容易,难点就在刚才讲的分布式部署上,怎样让多层架构在芯片上发挥最好的能力?

第四,动态拓展,增加模型层数和参数量提高模型的性能,是经验上获得的工艺水平的提升。比如商汤在2015-2016年的时候,已经做过数百亿参数了,做过之后,再从数百亿跳到千亿,毕竟比从0开始要好,对算力的应用能力、模型部署能力都会提升。

大家在前几周看我们公开的日日新模型觉得好神奇,效果还不错,文本意义也不错,尤其在图形生成上。原因是第一,在模型训练上之前已经做过数百亿的参数了,在做上千亿的时候相对来说肯定还是靠谱的。第二,在NLP领域,中国人做的不够好,但是在视觉领域,其实我们是做得很好的,至少没有落下一个时代。

我们统计过,比如商汤为例,它发的论文总量基本上跟全球最顶尖的大学MIT或者Stanford差不多,在有些领域比谷歌还多,说明在不同领域的积累不一样。反过来为什么国内厂商特别愿意在做大模型时展现多模态,多模态就是除了文本以外,还有视频、图片之类,很简单,如果跳过核心的推理能力,做多模态对大多数国内厂商来说是一个更容易的事情。

做多模态是简单的文本和视觉的迁移、学习对齐的任务,再加上模型训练功能。要让模型产生推理,产生逻辑这件事情难度太大了,这是实际情况。即使GPT-4没有提供文生图的能力,它提供的是读图能力,但如果一个厂商称不仅能文生图,还能图生文,加上音频等数据的迁移,这时候我们能说它的总体能力超过了GPT-4吗?我觉得不能,因为它只是在多模态展现上,在难度更低的事情上,实现了超越。

但对GPT这条路线来说,难度在于怎样在生成的时候既有推理能力,又能实现多模态。理想情况下,应该是输入给模型一句话,比如画一个符合宋代风格的建筑图设计纸,参数跟故宫一样大,它就能够生成一个完全的图纸。“跟故宫一样大”是最难的,这时候它要自己学习故宫是什么,图纸是什么,时代是什么。这些事情已经实现了,有很多基于GPT-4的厂商,自己对接接口后开始开发这个功能。

这就是Altman所讲的OpenAI为这个时代提供的,是一种推理能力,模型的智能提供给大家,然后大家基于这个接口去商业化,比如画图纸、做设计、做PPT,这是我们看到的实际情况,反过来国内的生态也是这样,大多数企业都没有在做大模型,应该在5家以内比较合适。就好像移动互联网时代起来的时候,运营商提供的基础设施,提供的基础逻辑能力,再往下吃到福利的其实是BAT这样的互联网服务提供商。

大模型时代也是一样,几个大企业做完大模型可以了,然后往下去做产业落地,这是我们看到的情况,但还是存在一系列技术难点。一是对本身的掌控,比如训练时间长、资源消耗高、准确率有待提高,这在GTP-4上都有所优化。再往下是容易产生误导性或者生成结果的一致性不够,这里指的是什么?有一个专门的名词叫做推理幻觉,幻觉的意思是它不是有理解的、有意义的智能,而是一只迷宫里的老鼠,在推测你喜欢什么或者哪个答案更偏向于人类理解的智能能力,所以它产生误导性或生成结果的一致性很差,都是因为这个原因。

ad7680c7-4313-4ad7-b7df-eaacc7f1249c.png

即使做到GPT-4,Altman也说,我们没办法认为它是一个超越人的模型,它仍然会存在错误,在于底层数学逻辑就是这样。再往下就是跨模态性不够,GPT-4其实也是对图形的阅读能力,没有文生图,是另外一个模型做了文生图。再往下是对话长度限制多,语言支持不够,这在GPT-4已经被解决。

风格和语气的控制,我要讲一下,因为我天天在用,如果想要获得一个更好的Prompt结果,现在有一本国外学者写的书,就是怎么样用GPT-4给它语句能获得更好的结果。大家如果想用它,就是要在这一方面加强。

举个例子,比如说我现在写一个文章,这个文章是财经领域的,但是我怕自己能力不够,我下达指令以什么为主题,假设你是纽约时报或者Times的首席作者帮我写这篇文章,而且要以写纽约时报哪篇文章或者是哪一类文章的风格来写。

我有三点要求,第一点要求文本能力不能弱于发表在Times上的文章的能力;第二点要求要符合中文的表达习惯;第三点要求生成的内容不能是其它材料的机械组合,而要有深度洞察的观点。这时候这个模型就会代入它是一个纽约时报的作者,按照这三点要求生成一篇质量很高的文章。前几天我也做了一个实验,假设你是鲁迅,对乌克兰和俄罗斯关系怎么看?请写一篇文章批判,人工智能也写得很好,甚至说文章里面有哪几句话特别适合批判。这时候就是带入人格,带入风格,对语气进行控制,用很长的Prompt提示语句来获得相应功能。

如果有一天真用到了GPT或其他人工智能,Prompt工程是最重要的之一。比如今天我招一个文员,他的核心能力不是怎么画PPT,而是怎么教GPT画ppt,怎么写Prompt语句。考试方式很简单,现场出一个题,两个人都用GPT画,然后看Prompt语义有多高,这个就是人机协同。我们的能力核心变成怎样去训练机器,不是直接干,一天能写好的PPT超不过100页,但是只要有合适的Prompt语句,一天内就可以完成强度很大的工作,时代的变化在这。

对大多数人来说不应该也不需要去学习,怎么做算法部署,怎么做预训练数据集,或者怎样把模型做更多迭代优化,需要做的是在它不断进化的能力过程当中,学习怎么与它深度协同。

有机会我们可以分享一下,有一本英文书分了很多类,比如在什么样的角色下去问GPT?以什么样的风格去问?在什么功能上去问?甚至可以设定告诉GPT你不是GPT,你是维基百科,我现在问你几个问题,你要以维基百科的方式告诉我答案是什么。这时候你再问他,就会以百科的方式,以表格的方式,或者以其他不同方式来回答。

以后有机会我可以给大家做一个专门分享,一边弄一边做演示,应该怎样做Prompt工程,这是非常实用的,可是国内还没有总结好,这件事对很多人都很重要。

最后是创新性有待提升,创新性就是它无法进行在线实时学习,而且没有创造新知识的能力,是限于模型的问题,这个模型本身有一些限制,导致了限制。

以上本期课程的主要内容,关于课程内容有什么问题或建议欢迎留言。我是刘志毅,我们下期再见。

- E N D -

 加入刘志毅「AI时代的科技新范式」

f342851d-c686-4d30-bb37-20fad13ba17e.jpeg

— — 《AI时代的科技新范式》目录— —

2e95ab74-b5d6-4eff-8af2-94759280bcfd.png
风险提示:大师课为甄选第三方合规机构人士,讲授投研理论课程之平台,所授内容不构成对任何具体产品的买卖或投资建议。平台课程所表述的意见仅供学习与参考,不代表华尔街见闻意见或观点,也不解决用户特殊的投资目标、财务状况或需要。市场具有波动性和不确定性,平台不对任何与您依赖课程观点或信息而遭受的损失承担责任。投资有风险,请谨慎决策。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK