2

国盛刘高畅:算力需求仍有预期差,相对于训练端,预计推理侧需求将超过10倍增长 | 见...

 1 year ago
source link: https://awtmt.com/articles/3686914
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

国盛刘高畅:算力需求仍有预期差,相对于训练端,预计推理侧需求将超过10倍增长 | 见智研究

韩枫 发表于 2023年04月20日 11:15
摘要:国盛刘高畅通过对DeepSpeed Chat 和 AutoGPT的原理讲解,解答了市场目前对模型-算力间一些认知上的误区。这也是为什么要在AI发展过程中准确认知各个模型特点,从而了解其对产业链发展的意义。

特邀国盛证券所长助理、计算机首席分析师【刘高畅】带来最新的观点。

摘要:

国盛刘高畅通过对DeepSpeed Chat,和AutoGPT的原理讲解,解答了市场目前对模型-算力间一些认知上的误区。这也是为什么要在AI发展过程中准确认知各个模型特点,从而了解其对产业链发展的意义。

1、DeepSpeed Chat的一个误区:DeepSpeed Chat效率提升,大幅降低算力消耗,只需要一个GPU就可以支持超过130亿个参数的模型。因此市场认为,算力需求会大幅削减,对AI服务器或者硬件的需求降低。

实际上,DeepSpeed Chat并不是一个训练预训练大模型的工具,它更多的是在预训练好的大模型的基础上进行强化学习调优,相比于预训练阶段,强化学习在整个训练过程中所需的计算资源占比非常小,如果仅仅是强化学习的话,它可能只占整个训练过程的千分之一以下,预训练阶段的算力需求并未因此节省。

此外,在应用的爆发后,推理侧的算力需求才是真正的爆发。使用量越大,对算力的需求就越高。相对于训练端,这种需求可能是5倍、10倍,甚至更高。因此,应用侧的爆发将带来算力需求的更大幅度提升,而DeepSpeed Chat因为其强化学习调优无疑加速了这一过程。因而算力需求仍旧有增长潜力。

2、AutoGPT的优势是能够自我反馈,自我思考,给一个简单的指令,就可以不断的去扩展、去融合。极大的扩展了GPT的想象空间,有助于更多应用产生。

3、为什么要坚定拥抱这次AI大变革?1999年是当下唯一可比科技周期,它最可比的特点是具有巨大的潜在空间和颠覆性,在大型科技行业的早期,整个产业积极地拥抱了这种新技术的变革,全社会也响应积极。

我们认为 AI 是计算机行业首选的主线。我们今天以最近讨论很多的 "AutoGPT" 和"DeepSpeed chat"为例子,来澄清市场许多相关领域认知的错误理解,重点分享AI行业的最新更新,帮助大家理清思路。

1、对DeepSpeed Chat,市场认知有误区,认为算力需求会下降。但实际上,它可能减少千分之一的训练阶段算力需求,但同时它会加速应用侧爆发,从而带来5-10倍相对于预训练阶段的应用侧算力需求增长。

近期的 DeepSpeed Chat很多公众号报道时写得非常夸张,称其为“全民大模型”,好像这样的大模型开始变得不值钱了,但事实上,DeepSpeed Chat并不是一个训练预训练大模型的工具,它更多的是在预训练好的大模型的基础上进行强化学习调优,也就是所谓的Fine-tune或微调方式。

虽然绝大多数大模型具有非常强的通用性,但在具体细分领域可能无法提供足够的准确性。例如,如果将 ChatGPT在3.5阶段的模型用于医疗诊断,准确率可能只有 87%。因此,我们需要使用行业化、专业的数据和知识,以及know-how来训练模型,使其成为一个准确性更高的医生。

在这个过程中,Fine-tune需要特定领域的数据,以及一定模型的基础,在传统原有模型的基础上,再来训练提高准确性。这种过程类似于强化学习, Deep Speed Chat 主要加速的就是这个环节。该引擎具有三个主要优点:

第一个优势是效率和经济性比较好,它的效率比其他系统快15倍以上。它相对高效地利用了GPU,不像其他方式可能只能利用GPU的10%或甚至5%性能。

第二个优势是它具有出色的扩展性支持,可以应用于各种模型,不仅仅是像Hugging Face的Bloom这样的模型,还包括像openAI的ChatGPT,GPT-3还有各类的GPT3模型。它一天之内的训练速度也很快,可以对一个庞大的175B模型进行Fine-tune。并且它的算力消耗也很亲民,只需要一个GPU就可以支持超过130亿个参数的模型。

Deep Speed-Chat会带来非常明确的影响,应用主要通过三种方式:

第一种方式是通过 Fine-tune微调这种方式来进行行业化,和know-how的融合;

第二种方式是通过 plugin 接入到其他应用程序中,调用接口并使用其他工具;

第三种方式则是通过多模态的方式,使用的输入输出信号除了文字,还包括图像、视频输出信号以及机器人指令。通过使用 DeepSpeed Chat,也可以降低某些工程难度,使中小型应用程序制造商能更轻松地将 ChatGPT 用于各种应用程序,如医生、老师、金融分析师等,并且可以用于其他方案。

因此,整个 ChatGPT 的可能性扩张速度将会加快,这种完整的开发工具对应用的成型有非常强的帮助。

市场目前存在一种误解,使用DeepSpeed Chat后,训练时需要的大量算力就会缩减,但事实上,这种观点是有偏差的。

正如我们之前所提到的,在整个训练过程中,包括预训练阶段和强化学习阶段,还有很多InstructGPT 的过程,这是一个教育和指导的过程,就像我们教小孩子一样,我们会指导他们遵循正确的指令和提升道德水平。预训练阶段,包括编写代码的阶段更多地提高了它的逻辑水平。

相比于预训练阶段,强化学习在整个训练过程中所需的计算资源占比非常小,如果仅仅是强化学习的话,它可能只占整个训练过程的千分之一以下。但结合一些其他的Fine-tune,可能需求会多一些。但总体而言,在整个训练过程中,它的占比会非常少。

整个模型的算力需求是在训练和推理过程中,我们认为在应用的爆发后,推理侧的算力需求才是真正的爆发,应用端使用量越大,对算力的需求就越高。

相对于训练端,这种需求可能是5倍、10倍,甚至更高。因此,需要多少算力取决于应用。DeepSpeed Chat加速了各种应用的落地,因此我们认为中期算力需求有望迎来一个极大的爆发。

2、AutoGPT能够自我反馈,自我思考,给一个简单的指令,就可以不断的去扩展、去融合,极大的扩展了GPT的想象空间

很多人关注AutoGPT。AutoGPT是一种自主反馈和改进的行为。初始时,它有许多身份设定和目标存在。该产品展示了整个流程,并提供了一些演示和连接,比如你可以输入AI名称和角色来定位身份。在此输入的AI是为了自动发展和实现商业目标,如增加净值。

所以交易中的 GPT是指定增加净值的,设定五个目标是为了完成任务。GPT 开始产生逻辑链以实现这些目标,给出理由并制定计划。完成目标的计划通过反思和下一步操作来实现。这个过程循环不停以达到目标。

 在这个例子中,展示了一个 ChefGPT,即厨师的 GPT。它的设计初衷是通过浏览网页和观察事件来创造一个独特的菜单,这个菜单能够与特定的主题相匹配。它的一个目标就是发明一个不在菜单中的菜谱,然后将其保存下来以适应这个特定事件。在完成这个目标前,它会不断推导和搜索相关的新闻和事件,以形成新的菜单。如果没有形成菜单,它会将其跳过并继续搜索,这个过程中会有不断的思考。

7809f19b-3bf5-4954-b81b-81b31a5ce9e7.png

AutoGPT就是这样的一个过程,它把 GPT融合起来,形成了一个能够自我反馈、自我思考,不断去演绎逻辑的方案。等于把一个简单的指令和目标指出来后,让它发散,然后让它去审视之后的结果。所以 AutoGPT是一个很有意思的产品,它的应用空间也比较大,给一个简单的指令,就可以不断的去扩展、去融合,所以想象空间就比较大。

这里强调一下,微软 Copilot 大家也看得比较多了,SAM也是大家最近看的比较多的一个方向。事实上,SAM并不能够取代机器视觉,因为 SAM 只是去分割任务,大家可以看到这个我们分割出来的效果,如果分割的效果比较好,那么识别的准确率也会大大提高。

3、1999年是当下唯一可比科技周期,它最可比的特点是具有巨大的潜在空间和颠覆性,市场会给予拥抱积极变革的产业极强的奖励

首先,从行业中期的角度来看,我们之前撰写了一份有趣的报告,分析了 1999 年互联网市场。我们认为,从产业的角度出发,我们应该淡化对投资本身的理解,那么这些年唯一可比的科技周期就是 1999 年。因此,我们回顾了当时的互联网行情,并发现它们有几个特点。首先,它们都是巨大的行业变革,同时处于产业的早期阶段,因此很难看到营收和盈利的变化。在早期阶段,甚至产品形态、商业模式和竞争格局都不是很明确。然而,它们最可比的特点是具有巨大的潜在空间和颠覆性。

当我们回顾1999年整个互联网行业的市场表现时,发现它的持续时间远比大家预期的要长。这一行情从1998年7、8月开始,一直持续到2000年年底。在这一过程中,出现了许多倍数增长的牛股,股票的涨幅多达8倍、10倍或者15倍,甚至更多。

因此,在大型科技行业的早期,整个产业积极地拥抱了这种新技术的变革,全社会也响应积极。市场也会给予这种可能性极强的奖励。这一轮人工智能的发展,与当时的情况非常相似。巨大的技术变革和极大的社会影响力,它的影响不仅限于计算机行业的400家公司,也不仅限于A股的4000家公司,它影响的是全体民众的生活和工作,以及整个社会形态。它有可能极大地提升社会生产力,为我们民众带来巨大的便利性。但同时,它也具有极强的颠覆效应,某些行业可能会受到影响,整个形态也可能会发生较大的变化。

见智研究:对于DeepSpeed Chat 来说,企业会用到开源的模型对这种类 ChatGPT 进行微调,那么对企业来说他们可能会遇到哪些难点?

刘高畅:

对企业来说的,首先还是要有一定的大模型的知识,也不是说所有企业的都有微调的基础,也是需要专业的团队来做。

第二点就是在微调的过程中,都是为了强化某一个领域的效果,这个时候,需要对这个场景有一个好的理解,并且要结合所需要的场景和应用,然后储备足够好的数据。

不是泛泛而谈的数据,而是真的对这种场景应用有很大支撑的数据,然后进行强化学习和训练,才能很好地提升这个领域的效果。

第三点,对企业来说,Fine-tune强化学习的过程当中,不只是单单地把它的专业度提升,它还有一个优点就是我们可以把这个模型做小,因为大家知道大模型的参数规模都会比较大,对算力的消耗也比较大,那么在推理应用端的话经济性不足。

那么Fine-tune 的微调,所需要考虑的就是有没有办法在保持效果的情况下,把模型做得相对来说小一些,那么它的经济效益就会更好。

见智研究:怎样看待中小企业自己研发大模型的路径?

刘高畅:

中小企业研发大模型,就是你也不能太小,因为我们考虑过你这个模型需要先做大再做小,你即使做行业模型,一般来说也是这种多模态的模型,基本上模型规模我们认为融合起来至少也是在 500 亿参数以上,纯视觉大模型你是可以做到几十亿参数的,不过那个意义不大。

一旦和 GPT 融合,然后用这种视觉大模型的形式,我们认为至少有一定的泛化能力,至少应该是在一个小几百亿参数,这个是必须的。小几百亿参数,这种行业的模型要达到比较好的效果和比较好的应用,我们认为整个研发的投入,应该也在一两个亿以上。而且它对于这种人才的储备,还有行业的客户数据的储备,还有 know-how 的储备,其实要求都还是比较高的。

所以我们认为很多初创公司有人才的基础上,它是可以做这样的大模型的,但是对所有的绝大部分的中小企业来说,我们认为这个门槛相对来说比较高,所以尽量不要一开始就做大模型,最好是结合一些比较成型的,比如说像开源的hugging face等等。

见智研究:对专用领域的企业来说是否会倾向于模型压缩以及本地化的部署?

刘高畅:

对很多场景来说模型压缩应该就是蒸馏和裁剪这两个方式,这个是一定会做的。我们刚才讲 Fine-tune的时候,它也进行了这种方式。所以你在具体的细分行业,你是可以蒸馏和裁剪的比例是比较高的。像ChatGPT ,它在应用的过程当中它为了保持通用性,它大概裁剪的模型规模,就是对算力的损耗大概是降低了90%。那可能在细分的领域来讲,这种模型的蒸馏和裁剪我们认为应该是可降低在 90% 以上,好的话可以在 95% 以上这样的水平。本地化部署,我们觉得相对来讲难度会比较高。

见智研究:对于开源模型来说,开源商的授权问题是否值得关注?

刘高畅:

开源商的授权问题是肯定需要关注的,因为无论是在这种 GitHub 还是像 hugging face 里面,如果自己用还好,但是如果说来进行这种商业化去推广,你的整个合法性就会受到考验。在一些非允许的区域或者说领域内,你用它的底层的模型,开源模型做训练。就像我们之前,比如中国软件以前做操作系统这种服务器操作系统,它的麒麟操作系统的底层可能是 CentOS。一旦把这一块禁了之后,大规模的商业化就会受影响,很多客户也会不愿意用这样的一个合法性存疑的模型,所以在商业化的过程中是受影响的。但是在这个自己就是说单独使用的过程当中,这个是不受影响的。

见智研究:Meta 的SAM 模型在是否在产业当中已经有一些最新的进展了?

刘高畅:

SAM它整个推出来的时间不长,我们这里也讲了它的功能主要是分割,也叫 segment anything model,然后它这里面其实是融合了很多算法,包括像 ViT 这种算法一些思想也是融在其中。这个后面就是它对这种通用的视觉。比如说在机器人的运行过程当中,那么它可以去区分,要让每一块物体进行这种自动的分割,然后你的注意力注意到哪个模块,它才进行这种识别。

那这样的自动分割,然后再加识别的方式,它对节省算力,还有像人一样的这个智能其实是非常像的,就是我们一看看到眼中的图像当中,我们可以其实知道是很多模块,但是我们不仔细去看某一个领域,我们可能很多细节很多点是看不清楚的。那么它这个就是先分割,然后再重点关注再识别,这个可以大大的去提升视觉的效率还有准确度。

见智研究:多模态在视频应用上有什么最新的进展?

刘高畅:

多模态视频这个其实是大家的一个误区,大家觉得视频才是真实的世界,但实际上视频的话就是一秒 24 帧的这个图片。在多模态发展到今天的话,其实产业都在进步。在分割的这个环节上有 SAM 出来,然后在识别的这个环境上,我们也看到了像这种 Google 2 月份发的这个ViT-22B,也就是大家讲的这个视觉大模型,真正就真的把这个大模型从 30 亿参数扩展到了 220 亿,再加上这样的一个图生文的模型之后,我们看到 GPT 的发展有这种智能化的这个反馈了。

现阶段我们看到的是搜索辅助编程、聊天机器人的应用,但是未来我们会看到很多这种简单多模态的方案,像这种智能家居的工业视觉,工业检测,通用的AGV等等。

落地速度快其实不是一个选择的标准,未来的发展空间大才是最好的一个选择标准。现阶段的话我们看到的比较快的是搜索,是辅助的编程,是各种聊天机器人的变种落地快,在中期来看的话,既能快速落地,又有比较大的空间。我们看到是 office 类的工具,简单多模态的这种方案,行业的专家智能助理,接下来的这个半年到 3 年内,应该会给大家不断地产生各种各样惊喜。

未经授权,禁止转载。

a6357c9b-a8d3-4960-9563-68a76f3fe716.png
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK