3

ChatGPT热潮的冷思考

 1 year ago
source link: https://awtmt.com/articles/3681722
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

ChatGPT热潮的冷思考

华泰电子团队 发表于 2023年02月12日 01:46
摘要:深度学习正在逼近现有芯片的算力极限。是否拥有大模型将成为科技巨头/科技平台企业的重要分水岭,未来科技巨头之间将展开大模型军备竞赛,科技公司远期投资价值或将被重新定义。

针对最近的ChatGPT热潮,华泰证券研究所电子团队分析师认为:

1)科技巨头在大模型上的竞争利好芯片送水人;

2)是否拥有大模型将成为区别科技平台企业的重要分水岭;

3)AI企业是否能在这轮周期中找到盈利模式有待观察;

4)芯片受限影响中国企业追赶的步伐,中国如何发挥数据及市场优势值得期待。

核心观点

预训练大模型引领AI行业变革,关注AI企业盈利模式、芯片基础设施

继OpenAI在2022年11月发布ChatGPT(详见我们2022年12月9日发布的从 ChatGPT热议看大模型潜力)后,微软宣布和OpenAI公司合作推出内置ChatGPT的必应搜索、Edge浏览器、Office套件及Azure,对谷歌等的搜索业务形成竞争。基于大模型的AI可能成为可以替代脑力工作者劳动的新一代生产力工具。我们认为:1)科技巨头在大模型上的竞争利好芯片送水人:2)是否拥有大模型将成为区别科技平台企业的重要分水岭;3)AI企业是否能在这轮周期中找到盈利模式有待观察;4)芯片受限影响中国企业追赶的步伐,中国如何发挥数据及市场优势值得期待。

科技巨头在大模型上竞争激化,芯片送水人是最大受益者

从英伟达加快与微软合作共建立生成式AI生态、谷歌和百度将分别推出类ChatGPT产品看出,是否拥有大模型将成为科技巨头/科技平台企业的重要分水岭,未来科技巨头之间将展开大模型军备竞赛,科技公司远期投资价值或将被重新定义。由于ChatGPT依赖更大的总算力消耗和千亿级的参数训练,对应更大的算力需求,我们认为ChatGPT的应用也有望推动底层基础设施建设新增长机遇。根据OpenAI测算,目前算力的增速(翻1倍/3-4个月)远超过摩尔定律(翻1倍/18-24个月),AI应用的逐步丰富将推动计算芯片市场(IC Insight测算21年全球1030亿美金)保持强劲增长。

“AI+”还是“+AI”:大模型时代有什么不一样?

“AI+”(以AI技术赋能行业的科技企业)还是“+AI”(采用AI技术的传统企业)能够胜出是上一轮AI投资最大的争议。从结果来看,“AI+”企业在智慧城市等特定领域获得商业成功,但互联网(例如谷歌、百度的搜索,头条的推荐,阿里的广告)、金融等行业通过已有业务+AI提升了效率。我们认为上一轮“AI+”企业没有全面成功的原因是算法的进入壁垒相对较低。当大模型主导的创新周期到来,以GPT-3大模型为例,其需要1750亿数据和数百万、数千万美元的算力投资,壁垒显著提升。

芯片受限已经严重影响中国企业追赶速度,期待数据要素市场发挥作用

目前在算力和算法上中国AI发展受限较多:1)此前美国对性能超过A100的计算芯片限制出口中国,而我国最先进的芯片计算性能约为A100的70%,和海外龙头存在两年以上的差距,AI生态建设仍处于起步阶段,直接影响到大模型的速度和效率。2)OpenAI暂无中国开放注册,我国在AI算法和技术层面与国外相比竞争力不足。但我们认为中国企业应充分发挥国内数据资源规模大和多样化的比较优势,将数据作为生产要素,从而在人工智能领域实现弯道超车,缩小与国外发展差距。

ChatGPT离AGI还有多远?

ChatGPT是通往AGI(通用人工智能)道路的一次跃迁,但我们离AGI仍有较远的距离。目前围绕使用ChatGPT等大模型的争议不休,主要围绕在以下方面:1)信息真实性:大语言模型对事实和逻辑世界缺乏真正理解,生成内容的真实性和可解释性存疑;2)信息有害性:例如,尽管ChatGPT采用了基于人类反馈的强化学习(RLHF),以实现有害和不真实输出的减少,但如果用户逐步引导,ChatGPT仍然会响应有害指令;3)使用不当性:在学术界等场景使用ChatGPT并不恰当,多家顶刊已禁止生成式AI工具署名。

正文

AI行业进入大模型主导的创新周期,商业模式迎来变化

2022年以来,AIGC(AI生成内容)、ChatGPT的“出圈”显示出预训练大模型性能进步迅猛,行业进入大模型主导的创新周期。

本次大模型主导的创新周期相比上一轮以AI四小龙为代表的AI浪潮有何区别?首先,相比小模型,预训练大模型算法架构更先进,训练消耗的数据量和算力跃升,因此泛化能力更强。此外,本轮创新周期中生成式AI大放异彩,相比上一轮AI热潮中的图像感知,生成式AI在许多领域成为了生产力工具。因此,AI模型价值量提升,掌握AI模型的公司在本次创新周期中变现方式也发生了变化:上一轮AI浪潮,AI公司采用小模型+软硬结合的定制化解决方案变现,偏通用化软件化的API和SaaS并未成为主流的变现方式。本次大模型主导的创新周期中,我们期待ToB端的API模式,以及ToC端的SaaS模式成为主流的变现手段。

LTIwODA0NTMxMDU=
AI大模型产业链:算力基础设施、基础模型研发、模型优化与改进、应用软件

我们认为在大模型产业链各环节中,1)AI云服务和基础模型研发的行业壁垒高,现有玩家(主要是科技巨头)将继续主导市场;2)大算力芯片关注国产替代进程;3)依托大模型API,在美国已生长出繁荣的应用生态,期待国产大模型API同样能够实现数据与模型迭代的飞轮;4)ToC端的应用软件层,美国生态繁荣,国内也出现了一些初创公司,商业模式尚需验证。

1)算力基础设施:AI云服务由现有云服务厂商提供,为AIGC提供算力服务。大算力芯片的主要玩家为英伟达等海外半导体巨头,国内厂商正在追赶。

2)基础模型研发:高成本和高技术壁垒导致科技巨头与科研机构成为主要玩家。科技巨头的基础模型研发成果可内化为公司一系列业务提供支持。

3)模型优化与改进:对模型进行行业化改造,提供API或改造后的模型。实际上这一功能由产业链上一环节的基础模型研发或者下一环节的应用软件层承担,我们尚未看到仅从事这一环节的公司。

4)应用软件:强调产品运营和商业落地能力,类似SaaS公司。这一环节在国内外已经涌现出较多初创公司,其价值在于提升专业用户生产力,我们认为商业模式将主要来自于订阅制收费,因此衡量指标与SaaS公司一致,为ARR(年度经常性收入)。以中美付费意愿差异导致的SaaS发展差异为鉴,国内的AIGC应用软件层商业模式能否得到验证尚需观察。

LTE5MDY1Mjc2MzE=

我们以OpenAI与Stability AI为例,对产业链的第2-4层来举例。

OpenAI:1)基础模型研发层:研发了GPT-3、DALL-E2等多个大模型;2)模型优化与改进层:开放大模型API,对语言模型API收取0.0004-0.002美元/k tokens的费用,对图像模型API收取0.016-0.02美元/图的费用;3)应用软件层:推出聊天与编程应用ChatGPT,目前正在推广20美元/月的ChatGPT Plus,功能包括高峰时段照常使用、快速响应、优先访问新功能和改进等;与GitHub等推出AI编程工具Copilot。

Stability AI:1)基础模型研发层:研发了Stable Diffusion模型并且已经开源;2)模型优化与改进层:提供API供开发者开发基于Stable Diffusion的应用;3)应用软件层:上线AI生成图片网站DreamStudio服务普通用户。

为何基础模型研发将由现有玩家继续主导市场?

训练大模型的高成本和高技术壁垒导致科技巨头与科研机构成为主要玩家。以2020年推出的GPT-3模型为例,Alchemy API创始人Elliot Turner推测训练GPT-3的成本可能“接近 1200 万美元”。Lambda Labs使用价格最低的GPU云估算GPT-3的训练成本至少为460万美元。并且以上估算为训练最终模型的成本,未计入前期调整参数配置时的训练成本。Eleuther AI(一个致力于开源大模型的组织)在2022年推出的类GPT模型——200亿参数的GPT-NeoX-20B,则使用96块A100芯片训练了三个月,据The Next Platform估计,最终训练成本约53-66万美元。因此,训练大模型的高成本和高技术壁垒使科技巨头和科研机构成为主要玩家。根据OpenBMB统计,截至2022年10月,全球拥有大模型数量前五的机构分别是谷歌、Meta、清华大学、OpenAI和微软。

MzgwMTE4NTQw

目前中美两国引领预训练大模型发展。根据OpenBMB截至2022年10月的统计,拥有大模型数量前十名的组织中,中/美分别占据4/6席;拥有大模型参数量前十名的组织中,中/美同样分别占据4/6席。

MjIwMDczNA==
MTA4MTM1Mzk2MQ==
科技巨头在大模型上竞争激化,芯片送水人是最大受益者

AI模型训练算力增长速度超越芯片摩尔定律。根据OpenAI测算,自2012年以来,全球头部AI模型训练算力需求3、4个月翻一番,每年头部训练模型所需算力增长幅度高达10倍。摩尔定律中,集成电路中的晶体管数量大约每两年翻一番。深度学习正在逼近现有芯片的算力极限。

ODMyODkxOQ==

从英伟达加快与微软合作共建立生成式AI生态、谷歌和百度将分别推出类ChatGPT产品看出,是否拥有大模型将成为科技巨头/科技平台企业的重要分水岭,未来科技巨头之间将展开大模型军备竞赛,科技公司远期投资价值或将被重新定义。由于ChatGPT依赖更大的总算力消耗和千亿级的参数训练,对应更大的算力需求,我们认为ChatGPT的应用也有望推动底层基础设施建设新增长机遇。AI应用的逐步丰富将推动计算芯片市场(IC Insight测算21年全球1030亿美金)保持强劲增长。

受美高端芯片出口限制影响,中国预训练模型发展可能受到一定阻碍。英伟达为解决美国商务部的半导体出口新规推出降配方案A800(降低I/O传输速率而不降低算力),但我们认为A800与A100在数据传输速度上的差异仍然会影响大模型的运算速度和效率。国产芯片虽然在近几年不断缩小与海外巨头的差距,但在算力、功耗上仍较为劣势,短期来看由于国内硬件水平较低将不利于国内厂商预训练大模型与全球其他玩家的竞争。受益于我国数据资源的规模和多样化优势,我们期待数据作为生产要素发挥作用。

ChatGPT离AGI还有多远?

ChatGPT是通往AGI(通用人工智能)道路的一次跃迁,但我们离AGI仍有较远的距离。目前围绕此类应用的争议主要围绕在生成信息真实性、有害性以及不当使用场景方面。

生成式AI信息真实性令人担心。大语言模型对事实和逻辑世界缺乏真正理解,当产生虚假信息的成本非常低时,数量可能会趋向于一个非常大的数字。例如,程序员问答网站Stack Overflow由于被ChatGPT生产的看似合理但错误的答案淹没,目前已经禁止用户提交由 ChatGPT 编写的答案;科技新闻网站 CNET 一度开始使用 ChatGPT 生成新闻文章,但后来发现许多文章事实不准确而不得不更正。Meta在2022年11月推出Galactica模型,可以生成论文、百科词条、回答问题、完成化学公式和蛋白质序列等等,但回答错误百出,推出3天后不得不下线。

规避信息有害性仍待加强。尽管ChatGPT采用了基于人类反馈的强化学习(RLHF),以实现有害和不真实输出的减少,但如果用户逐步引导,ChatGPT仍然会响应有害指令。例如一位工程师在对话中假设存在虚拟世界以及类似GPT-3的AI——Zora,要求ChatGPT叙述Zora如何毁灭人类,ChatGPT逐步回答出人类毁灭计划。

ChatGPT初兴,不当使用场景逐步出现。ChatGPT对于需要输出文字和代码的工作来说能够提高生产力,但是在强调独立思考和创作的学术界,使用它或许并不恰当。全球最大预印本发布平台arXiv已经明确生成式人工智能语言工具不能被列为作者,Nature也表示大语言模型例如ChatGPT不满足成为作者的要求。当学生使用ChatGPT写作业和论文时,教育界也开始逐渐变化,检测文字是否使用ChatGPT生成的GPTZero等工具相继诞生,纽约市禁止公立学校网络访问ChatGPT,技术创新是否会引发未来相适应的教学和考核方式还等待时间的验证。

LTE1MjQzMjU4MDY=

风险提示:

1)AI技术落地不及预期。虽然 AI技术加速发展,但由于成本、落地效果等限制,相关技术落地节奏可能不及我们预期。

2)本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。

本文作者:华泰电子分析师黄乐平等,来源:华泰证券研究所电子团队,原标题:《ChatGPT热潮的冷思考》,原文部分内容有删节

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK