3

大模型炼丹指南:信则灵,不信则妄

 1 year ago
source link: https://www.ccvalue.cn/article/1410653.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

大模型炼丹指南:信则灵,不信则妄

 •  20 小时前
每一个大模型都是一台昂贵的“碎钞机”,这已经成为各路 AI 观察家们津津乐道的常识。

作者:陈彬

编辑:戴老板

每一个大模型都是一台昂贵的“碎钞机”,这已经成为各路 AI 观察家们津津乐道的常识。

大模型训练成本有一个简单的比例:训练费用跟参数量的平方成正比。比如 OpenAI 训练 1750 亿参数的 GPT-3 费用大概是 1200 万美元,训练 5000 亿参数(业界预估)的 GPT-4 成本就飙升至 1 亿美元。

成本大都来自 GPU 使用时长。Meta 训练 650 亿个参数的 LLaMA 模型耗费 100 万个 GPU 小时;HuggingFace(号称机器学习届的 GitHub)训练 Bloom 模型耗费了超过两个半月的时间,使用的算力相当于一台装有 500 个 GPU 的超级计算机。

Google 在训练 5400 亿参数的 PaLM 模型时,在 6144 块 TPU v4 芯片上训练了 1200 小时,然后又在在 3072 块 TPU v4 芯片上训练了 336 小时,总共消耗了 2.56 e24 FLOPs 的算力,折合成 Google 云计算的报价,大概在 900~1700 万美元左右。

但是……几百上千万美金的训练费用和几亿美金的硬件投入,相比 AIGC 开启的浪潮,真的算贵吗?

微软 2022 年的净利润是 727 亿美金,Google 是 600 亿美金,Meta 则是 230 亿美金,在 OpenAI 花费 460 万美金训练 GPT-3 之前,这些巨头都投入了几十甚至上百亿美金用来寻找所谓的“新方向”。

微软迄今为止向 OpenAI 投入了 100 多亿美金,这个数字看起来很多,但要知道微软当年收购 LinkedIn 就花了 262 亿美金,而在更早的时候收购诺基亚手机业务花了 71.7 亿美金,基本等于打了水漂。

Meta 则花了更多“冤枉钱”来寻找第二曲线。2021 年扎克伯格把 Facebook 的名字改成了“Meta”,投入巨资 All in 元宇宙,2022 年元宇宙部门亏损 137 亿美元。在 ChatGPT 问世之前,Meta 甚至一度准备把 2023 年的 20% 预算投入到元宇宙中去。

Google 对 AI 一向重视,不仅收购了“前 GPT 时代”的明星 DeepMind,还是 Transformer 这一革命性模型的提出者,但 Google 并没有像 OpenAI 那样孤注一掷地“死磕”大语言模型,而是在多个方向上“撒胡椒面”——总投入并不少,但效果加起来都不如一个 ChatGPT。

拉开视野来看,全球科技巨头——包括国内的大型互联网企业在移动互联网渗透率见顶之后,展开了惨烈的“存量博弈”,卷算法推荐、卷短视频、卷 Web3、卷本地生活……投入的资金远远超过 OpenAI 在 ChatGPT 诞生前烧掉的 10 亿美金。

发现新大陆的费用,跟旧大陆的内耗向来不在一个数量级。欧洲人在哥伦布发现新大陆之前内卷了 1000 年,而发现新大陆只花了西班牙王室投资的 200 万马拉维迪(大约 14000 美元)——跟新大陆给世界带来的变化相比,这点儿钱其实微不足道。

事实上,“资金”从来都不是启动本轮 AI 浪潮的核心因素。真正核心的因素是另外两个字:信仰。

蛮力的神迹

ChatGPT 走红后,好事儿的媒体跑去采访了 Google 旗下的 DeepMind 创始人 Demis Hassabis。

被 OpenAI 抢去了所有风头的 Hassabis 言辞有点儿不客气:“面对自然语言这一挑战,ChatGPT 的解决方案如此不优雅——仅仅是更多的计算能力和数据的蛮力,我的研究灵魂对此倍感失望。”

Demis Hassabis 和柯洁

Demis Hassabis 和柯洁

这句话听起来很“酸”,然而他接着话锋一转:“但这的确是获得最佳结果的方式,所以我们(的大模型)也以此为基础。”意思就是虽然不太认同,但 OpenAI 的“蛮力”真的很香,我们也不得不去学。

Hassabis 身段灵活,但早期对“蛮力”这件事的态度,让 Google 和 OpenAI 有了致命的分野。

2017 年,谷歌在论文中公开了革命性的 Transformer 模型,业界逐渐意识到这个模型对于构建 AGI(通用人工智能)的意义。然而,基于同样的 Transformer,谷歌与 OpenAI 却走上了两条不同的两条路。

OpenAI 旗帜鲜明地从 Transformer 构建大语言模型,疯狂堆参数,2018 年 6 月发布 GPT-1,参数 1.17 亿;2019 年 2 月发布 GPT-2,参数 15 亿;2020 年 5 月发布 GPT-3,参数 1750 亿,在蛮力的道路上“一条路走到黑”。

而 Google 虽然也地祭出 BERT(3 亿参数)、T5(110 亿参数)和 Switch Transformer(1.6 万亿参数),表面上跟 OpenAI 斗的有来有回,但光从模型的名字就能看出来:Google 总在更换模型搭建的策略,而 OpenAI 的策略更单一更专注。

比如 GPT-2 和 GPT-1 相比,OpenAI 没有重新设计底层结构,而是将 Transformer 堆叠的层数从 12 层增加到 48 层,并使用了更大的训练数据集,而 GPT-3 进一步把层数增加到了 96 层,使用比 GPT-2 还要大的数据集,但模型框架基本上没有改变。

另外,基于 Transformer 的大模型演化有三个分支:Encoder Only,Encode-Decoder,Decoder Only。OpenAI 一直坚持只用 Decoder Only 方案,而 Google 则变来变去:BERT 模型使用 Encoder Only,T5 模型又改成了 Encode-Decoder。

等到 OpenAI 突破后,Google 匆忙转向 Decoder Only 方案(PaLM 模型),时间已经错失了至少一年半。

在跟 OpenAI 的军备竞赛中,Google 却总沉浸在一些貌似炫酷,但实则对 AI 缺乏信心的产品上——比如 2022 年发布的 Gato。Gato 的思路是先做一个大模型底座,然后再灌不同的数据,以此生成出大量小模型——每个小模型都有特定的能力。

这么做的目的是让单个 AI 具备尽可能多的功能,更加通用。做一个简单的类比:谷歌路线相当于让一个上完九年义务教育的 12 岁小孩儿,去参加钢琴、写作、编程、舞蹈等一系列专业技能培训班,靠着“1+1+1...”培养出一个多才多艺的“全才”。

Gato 能执行 604 种不同的任务,包括给图片配文、玩雅达利游戏、操作机械臂搭积木。不过,Gato 虽做到了“通才”,但实用性却相当堪忧:其中近一半功能,还不如便宜小巧的“专才 AI”好使,有媒体评价:一个平庸的人工智能。

“万能”但又不那么万能的 Gato

“万能”但又不那么万能的 Gato

相比之下,OpenA 更热衷于让 AI“做好一件事”,即像人类一样理解自然语言——这是通向 AGI 的必经之路。

在所有站在 Transformer 模型肩膀上的团队中,OpenAI 是把“蛮力”发挥到最淋漓尽致的一个,算力不够就买算力,数据不够就找数据,别人的牛逼技术我直接拿来用,反正就是要把规模堆上去。终于,在“暴力美学”的指引下,奇迹出现了。

从成立第一天起,OpenAI 就把创造接近甚至超越人类的 AGI(通用人工智能)作为几乎唯一的目标。而且相比 Google 的迟疑不定,OpenAI 发起人们(包括马斯克)是真的相信 AI 可以成为一个 18 岁的成年人,而不是永远停留在 12 岁上打转。

黄仁勋在今年 3 月对谈 OpenAI 联合创始人 Ilya Sutskever 时,问了一个问题:“在这个(GPT 研发的)过程中,你一直相信,扩大规模会改善这些模型的性能吗?”Ilya 回答道:“这是一个直觉。我有一个很强烈的信念,更大意味着更好。”

这是一场蛮力的胜利,但更是一种信仰的胜利。大模型回报给“信仰”的礼物,也远超想象——随着参数量的暴力提升,研究人员突然有一天发现大模型出现了令人惊喜,但又难以解释的能力飙升。

他们找了一个老词来形容这种现象:Emergence(涌现)。

虔诚的回报

Emergence(涌现)这个词,常见于哲学、系统学、生物学等领域,其经典的定义是:当一个实体被观察到具有各个部分单独存在时不具备的属性和能力时,这种现象就被称之为“涌现”,早在古希腊时代,这种现象就被亚里士多德研究过。

后来,英国哲学家 George Lewes 在 1875 年第一次发明了 Emergence 这个词,用来专门形容上述现象。1972 年,诺贝尔物理学奖得主 Philip Anderson 撰写了一篇名叫“More is Different”的文章,用一句经典的金句来给“涌现”做了解释:

当一个系统的量变导致质变时,就称之为“涌现”。

“涌现”被引入到大模型中,可以说是相当贴切:AI 工程师们观察到一个现象,随着模型的参数量越来越大,当超过某个阈值或者“临界点”的时候——比如参数量达到 100 亿,模型会出现一些让开发者完全意想不到的复杂能力——比如类似人类的思维和推理能力。

比如,Google 大模型测试基准 BIG-Bench 里有一项任务:给出 4 个 emoj 表情符号,让模型回答代表什么电影。简单和中等复杂度的模型都回答错了,只有参数超过 100 亿的大模型会告诉测试者 [4]:这是电影 Finding Nemo(海底总动员)。

5409965c5a8215bee19d961e73dd5a21.png

2022 年,来自 Google、DeepMind、斯坦福和北卡莱罗纳大学的学者分析了 GPT-3、PaLM、LaMDA 等多个大模型 [3],发现随着训练时间(FLOPs)、参数量和训练数据规模的增加,模型的某些能力会“突然”出现拐点,性能肉眼可见地骤然提升。

15ca96d5613abeccb1cb5853ca93cebc.png

这些“涌现”能力超过了 137 多种 [5],包括多步算术、词义消歧、逻辑推导、概念组合、上下文理解等。这项研究给大模型的“涌现”下了一个定义:如果一项能力只有在大模型中存在,在小模型中观测不到,这项能力就是“涌现”出来的。

微博博主 tombkeeper 做过这样一个测试:在 ChatGPT 刚诞生时,他将发表于 2018 年的一篇充满隐喻的微博——“对微博上的佩奇来说,今天是黑暗的一天——她们的摩西杀死了她们的加百列”,交给 ChatGPT 理解,但 ChatGPT 回答失败了。

来源:微博 tombkeeper

来源:微博 tombkeeper

而等到 2023 年 3 月 OpenAI 推出了 GPT-4,tombkeeper 再次将这个问题扔给 AI,回答基本接近满分。

来源:微博 tombkeeper

来源:微博 tombkeeper

Google 在训练大模型 PaLM 时,也发现随着参数规模的增加,模型会不断“涌现”出新的能力。

e809fd52e841d6dcf34b57d659ca35c4.png

当最终把 PaLM 的参数堆到 5400 亿时,模型就具备了区分因果关系、理解上下文概念、解释冷笑话等能力。比如像前文一样根据 4 个 emoj 表情符号来猜电影名字。

8abfcc0504e6dae19fb38027a0a60e7c.png

对于大模型“涌现”的背后逻辑,现在几乎没有科学家能彻底讲清楚。这让人想起了 1950 年阿兰・图灵在《计算机器与智能》这篇论文中论述过一个观点:“学习机器有一个重要的特征,即它的老师往往对机器内部运行情况一无所知。”

当然,有人对此欣喜若狂,有人则会觉得毛骨悚然。不过无论是哪一派,都不得不承认那句老话:大力真的能出奇迹。“大力”背后就是信仰——人类一定可以用硅基来模仿大脑结构,最终实现超越人类的智能。而“涌现”告诉我们:这一刻越来越近了。

信仰的充值

有信仰,就要对信仰充值。中世纪基督徒用的是赎罪券,新世纪 AI 信徒用的则是晶体管。

文心一言面世之后,李彦宏的一段采访曾冲上热搜——李厂长直言“中国基本不会再诞生一家 OpenAI”,这似乎有点儿不太给王慧文面子 [9]。但这一观点确实有理有据:大模型军备竞赛,大概率会比曾经烧掉数十亿美金的网约车战争还要惨烈。

如果按照业界预估的成本,GPT-4 训练成本大约在 1 亿美金左右,GPT-3 的训练费用也要 1200 万美元。先不说昂贵的人才团队费用,王慧文的 5000 万美元光是投入到 GPU 购买或租赁上,都显得捉襟见肘。

大模型发展的三要素:算法、算力、数据。其中算力是数字时代的“石油”,未来的缺口一定会越来越大。自 2012 年开启黄金时代后,AI 对算力的需求开始呈现指数级增长。从 2012 年的 AlexNet,到 2017 年的 AlphaGo Zero,算力消耗足足翻了 30 万倍。

ff29481e394c4fec98acc54c10329ede.png

训练大模型需要专门的 GPU 集群,传统数据中心的用场不大。微软为了“迎娶”OpenAI,曾特地配备了一台拥有数万块 A100 与 H100 GPU 的超级计算机,光硬件入场费就花了近 10 亿美金 [1]。

即便如此,据相关机构测算,由于 ChatGPT 与 GPT-4 的访问量仍在增长,10 亿美金的超级计算机马上又要不够用了。要么进一步扩大算力,要么只能尽力控制成本,继续采用限流等手段 [12]。

21809764970c679e79cb1bb5041f9633.png

英伟达 AI 超算产品的第一个客户,就是 OpenAI

对此,贴心的卖铲人英伟达推出了 AI 超算云服务:租赁 8 块旗舰版 A100,每月只需 37000 美元,童叟无欺。若要达到训练 GPT-4 的算力(一万块 A100)月租金需 4600 万美元左右——每月净利润不足一个小目标的企业,的确可以洗洗睡了。

跟用神经网络来模仿大脑一样,AI 算力的昂贵也跟人脑的属性保持一致。

一个人的大脑大约有 860 亿个神经元,每个神经元平均跟其它 7000 个神经元相连接,所以大约有 6000 万亿个连接。尽管大脑的重量只占人体的 2% 左右,但当无数神经元连接工作的时候,它们每天需要消耗人体总能量的 20%~30%。

因此,即使是碳基生物的“智能”,也是一种暴力堆砌神经元后的“涌现”,对能量的消耗巨大。而相比经过上亿年进化的碳基神经元,晶体管构建的神经网络离“低功耗”相距甚远——比如柯洁功率是 20 w,而跟他下棋的 AlphaGo 功耗是他的 5 万倍。

因此,人类要想做出真正的 AGI,还需要继续给信仰来充值。

对全人类来说,这种充值显然是无比划算的。仔细算一算,OpenAI 烧掉的 10 亿美金,不仅给全球的科技公司找到了一片“新大陆”,还给愈发内卷的全球经济点亮了增量逻辑。在美元泛滥的当下,还有比这 10 亿美元性价比更高的项目吗?

当“新大陆”被发现后,全世界都会蜂拥而至。比尔・盖茨虽然现在是 AI 的狂热鼓吹者,但早在微软第一次投资 OpenAI 时,他是强烈的怀疑者,直到去年年底看到 GPT-4 的内部演示才对外表示:It’s a shock,this thing is amazing。

比尔・盖茨在未来可能拥有人工智能领域最雄伟大厦的冠名权,但 OpenAI 的创始人们、以及更多连接主义学派的人工智能先驱,值得人们在广场上树立雕像。大模型的炼丹之路,信则灵,不信则妄,跟风的投机主义者不配留下姓名。

最后,人类通往地狱或者天堂的道路,一定是由 AI 虔诚的信徒用一颗颗晶体管铺就的。

参考资料

[1] ChatGPT and generative AI are booming, but the costs can be extraordinary, CNBC

[2] Microsoft spent hundreds of millions of dollars on a ChatGPT supercomputer,The Verge

[3] Emergent Abilities of Large Language Models, Jason Wei 等,TMLR

[4] The Unpredictable Abilities Emerging From Large AI Models

[5] 137 emergent abilities of large language models, Jason Wei

[6] Harnessing the Power of LLMs in Practice

[7] Alphabet’s Google and DeepMind Pause Grudges, Join Forces to Chase OpenAI,The Information


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK