5

GPT4最值得关心的6个问题 | 见智研究

 1 year ago
source link: https://awtmt.com/articles/3684887
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

GPT4最值得关心的6个问题 | 见智研究

韩枫 发表于 2023年03月26日 01:36
摘要:科技越往后成本会越低。从长远来看,OpenAI的边际成本将无限趋近于 0 。

人工智能开启狂飙进化路,见智研究(公众号:见智研究Pro)特邀中信证券研究部高级副总裁【丁奇】一起来聊聊人工智能GPT4的最新进展,并将核心内容整理如下:

摘要:

1、多模态带来成本的提升是非常正常的。

2、科技越往后成本会越低。从长远来看,OpenAI 的边际成本将无限趋近于 0 。 

3、人机交互界面的改变是GPT3.5开始被产业界重视的原因

4、多模态4.0的本质:所有的文字,语音,图像,视频都可以抽象成一组向量。GPT本质上就是一个向量的输入,通过它的相关性输出另一组向量,从而转换成图像、语音或者视频,本质上是一样的,不同的是所消耗的算力资源。

5、现在其实有两个革命,一个是能源革命,基于锂电池,从过去的化石能源到我们的现在的锂电能源。另一个革命就是以ChatGPT为代表的 AGI通用人工智能,未来在有了更灵敏的机械反馈后,机器人就是最大的一个应用场景,但数字人一定会比机器人更先应用。

6、 AI演绎路径:肯定是先软件后硬件,先云端,后端,最后是边端。

丁奇:微软将GPT4嵌入Bing、Office全家桶这是一次天作之合。GPT4的核心就是多模态,能够生成文字、图像和视频,这对搜索引擎和办公有非常大的促进作用,像搜索引擎的核心需要的不仅是链接,而是答案, GPT4就可以直接生成我们想要的具体关于某个问题的答案。

我们平时一般通过办公软件、PPT、Word、Excel来生成内容,现在GPT成了非常强大的助手,比如一键生成PPT,极大促进了办公效率。所以我们认为微软和OpenAI合作必将对生产内容带来革命性的变化,也希望国内相关办公软件尽快推出相关的功能,让人享受到办公的便利。

见智研究:如何看待GPT4 的运行成本?

丁奇:首先GPT4现在并没有公开论文说参数到底是多少,不过360董事长周鸿祎先生根据GPT4的效果做了一个预估,可能是万亿量级的参数。不过这点对于成本来讲还没有那么重要。

另外,过去的计价和现在的计价,都是基于token,现在的单位计价贵了30倍左右(过去是1000个token0.002美元,现在是0.06美元)。为什么会更贵了?因为token的计价方式不同。通用计价方式是你看输入的参数,现在输入同样词更贵了,因为不能光看输入端的成本,还要看输出端的成本。过去的输入和输出都是文字,所以成本是比较低的。而GPT 4.0输出完全可能是图片,甚至以后是视频,输出量是大幅增加的,所以多模态带来成本的提升是非常正常的。

见智研究:GPT 3.5 Turbo为什么能做到参数量更多,但是价格反而更低?

丁奇:3.5相比3.0,核心参数在调优后是有所下降的。成本可以分为两块,一块是训练成本,一块是推理成本。从3.0之后,模型是做好了一个大概的训练,很多成本是有所摊销的,到了3.5之后,大家摊的更多的是推理成本。

科技就是这样的,在一开始的时候肯定是贵的,因为它有大量的研发投入、大量的基础设施投入。当然越往后它会越便宜,因为用的人越多,成本也会分摊的越多。

所以OpenAI 说,从长远来看,它的边际成本是无限趋近于 0 的。其实就像我们现在的搜索引擎一样,现在点一次搜索成本是极其低的。只不过 4. 0相比过去的 3. 5生成的内容不一样,图像、视频对网络带宽、计算量消耗很大,所以短期成本也会提升。

见智研究:GPT4发布后,如何看待之前版本的价值量?GPT1、2、3、3.5到4代大模型的演进变化是怎样的?

丁奇:1. 0 是 2018 年出的, 2. 0 是 2019 年出的,但是其实在产业界没有激起太大的水花,都是 transformer往 NLP(自然语言理解)上的尝试。过去在NLP上大家体验效果其实不太好的,比如语音的转写,翻译效果其实是不太尽如人意的。

过去的人工智能,它的主要算法是基于CNN, RNN, LSTM这三种。它在模仿人的神经元,认为信号是从一个神经元传递到另一个神经元的,也就是从一个单词找到相邻单词之间的相关性。这种方法在图像上特别有效,因为从图像上来讲,相邻的颜色,纹理都会很相似,也诞生出了人工智能的CV领域。

但是像语音、文字就不一定是相邻相关的,需要结合上下文的语境,甚至在前几章就可能埋了伏笔,需要对上下文要有一个完整的记忆和解读。关键就是如何让机器能够实现语境理解。

Transformer 架构提供了一个非常好的思路。既然我们生活中的理解、智慧、经验跟很多东西都相关。那就把参数组扩大,一直扩大到十亿或者是几十亿的范围。这样就能从各种各样的训练数据里找到更多的相关性。

之前Transformer 架构没表现出厉害的特质,本质上只是做一个统计相关。当它只有 1. 17 亿参数的时候,也就是GPT1.0,大家也没有觉得多了不起。到 GPT2. 0 的时候,大概 15 亿的参数,大家也觉得好像也没有什么特别大的突破。GPT3.0 到 3. 5,大家就发现发生了本质的变化。当它的容量扩到上千亿参数的时候,可以想象关联了多少知识在里面,这个时候它的准确率就有一个飞跃。所以直到GPT3.0 和 3. 5 问世才被产业界真正开始重视起来。

3.5 跟 3. 0 的根本区别在于改变了人机交互的界面,这是非常大的一个突破。InstructGPT能够更好的将语言模型和人类的意图、偏好进行匹配,并且在反馈的机制上进行微调。而 4. 0的本质就是多模态了。

见智研究:多模态是如何实现的?

丁奇:无论中文还是英文,常用词也就上万个词,完全可以用矩阵做一个编码。图像其实是由像素点形成,每一个像素点是由三种颜色涂在一块,是三个数字的小矩阵,把若干个矩阵连在一起,就会形成一个大矩阵。图像本质上就是这样的。

每一个语音就是一个正弦波,对它抽样,它也变成一组数字视频,其实就是一张图像把它叠起来,所以本质上所有的文字,语音,图像,视频都可以抽象成一组向量。GPT本质上就是一个向量的输入,通过它的相关性输出另一组向量,向量转换成图像、语音或者视频,本质上是一样的,不同的是所消耗的算力资源。所以为什么能实现多模态?因为本质上都变成了一组矩阵,所有的东西都可以抽象成一组矩阵,这是能变成多模态的底层原因。

其实我们做Transformer 也好,做这GPT也好,根本目的是想使用一个通用人工智能( AGI)做到在不同的情境下都能用。过去都是专用人工智能,比如专门做人脸识别的,专门做车牌识别的,或者专门做工业检测的,都是在某些专业领域的。人机交互一定是多模态的,这也是为什么 4. 0能够让业界感到欢心鼓舞,这是意味着我们离 AGI 更近了一步。

见智研究:GPT4应用具有怎样的想象力?

丁奇:搜索一定是落地的第一个场景,比如New Bing最先接入;其次就是办公软件,比如office365;电子邮件、视频会议也是生成内容类的场景。此外,像服务机器人、智能客服也是非常好的应用领域。

现在其实有两个革命,一个是能源革命,基于锂电池,从过去的化石能源到我们的现在的锂电能源。另一个革命就是以ChatGPT为代表的 AGI通用人工智能,未来在有了更灵敏的机械反馈后,机器人就是最大的一个应用场景。

数字人一定会比机器人更先应用。因为机器人受掣肘的地方比较多,包括续航、关节自由度等等,落地的困难要大很多。如果是数字世界里面的一个数字人,它的到来可能就会快很多,比如主持人、直播带货、数字明星等等。

此外,对游戏行业的影响也很大,特别是能够直接大幅降低游戏的开发成本。用AI画图能够极大提高游戏创意师的工作效率。

未来AI机器能够替代很多简单的工作,所以人的创意,人的思想就变得特别重要。所以我们觉得对于内容创意者会带来特别大的需求提升。

见智研究:AI 产业是硬件迭代的速度更快,还是应用侧发展会更快?

丁奇:我觉得要分两个阶段,初期一定是应用会更快,现在海外有很多的企业都接入了API 接口。国内也有百度的文心一言,后面也会开放API 接入很多的应用。

现在看起来国内和海外的发展路径非常类似,有一两个企业做出一些通用的大模型,接入API后向上层的应用软件进行拓展,就可以极大提升效率。Office365 就是一个很典型的代表。

硬件的迭代要取决于几个条件。云端的硬件就是以GPU 服务器为代表, 国内相比英伟达还是有一定差距的,不是短期之内能够迅速追上的。而云端,我们相信以后在端侧也会有一些智能硬件,这些端侧硬件现在的计算能力、内存能力,肯定是难以支持千亿参数的大模型。

而一些应用变得智能,也需要对大模型去做剪枝。可能对参数范围进行圈定,在特定领域有特定应用,从一个大模型变成一个专用领域的特定模型,使得一些边缘侧的智能硬件也可以用。

我们认为首先起来的是云端的软件,以一种 SaaS 化的方式给大家提供。其次就是云端的硬件,因为云端的硬件要怎么去做,其实已经有标杆在那里了,只是大家要踏踏实实地基于路径去做。

后面才是端侧怎么做,现在 open AI 也没有答案,大家现在的精力也不在这上面,但我们相信未来的这些硬件一定会被智能化的,所以路径肯定是先软件后硬件,尤其是先云端,到后端,最后是边端。

6fc0ee01-1c8f-4ebd-8ab8-a3d3d57785e3.png
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK