1

当Sam Altman想要七万亿美元....

 7 months ago
source link: https://awtmt.com/articles/3708483
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

当Sam Altman想要七万亿美元....

Astral Codex Ten 发表于 2024年02月18日 11:04
摘要:融资7万亿美元,钱是GPT迭代中最容易的部分。

华尔街见闻前期文章提到,山姆·奥特曼计划筹资7万亿美元建芯片帝国。

7万亿美元,基本相当于是全球GDP的10%。消息一出,舆论哗然。

尽管山姆·奥特曼大概率也得不到这笔钱,但来自Astral Codex Ten的热门评论Scott Alexander认为,这不仅是对未来人工智能规模化条件的思考,也是对人工智能迭代形式(安全or跃进)的思考。

基本逻辑:GPT-1 的培训费用大约为零。GPT-2花费4万美元。GPT-3耗资400万美元。GPT-4耗资1亿美元。GPT-5的细节仍是秘密,粗略估计是25亿美元。

因此,如果每个GPT版本的成本是上一个的25到100倍。这里假设平均为30倍。这意味着GPT-6 将耗资750亿美元,GPT-7 将耗资2万亿美元。(条件是 "GPT-6 "要比 GPT-5 超前整整一代,如同GPT-4与GPT-3的差距一样大。)

把GPT的成本分解来看,训练人工智能需要:

  • 计算(即计算能力、硬件、芯片)
  • 电力(为计算提供动力)

计算以浮点运算 (FLOPs) 为单位。GPT-3 训练需要 10^23次浮点运算,GPT-4 可能需要 10^25次浮点运算。

世界上所有计算机的容量约为 10^21 次浮点运算/秒,因此他们可以在 10^4 秒(即两小时)内完成 GPT-4 的训练。OpenAI 花了 6 个月的时间,这表明OpenAI 使用的计算机数量约为世界上所有计算机的 1/2000。

如果保持 30 倍的乘数因子,GPT-5 将使用世界上所有计算机的 1/70,GPT-6 将使用现存计算机的 1/2,GPT-7 使用的计算机数量将是现有计算机总数的 15 倍。世界的计算能力增长很快——该资料称每 1.5 年翻一番,这意味着每五年增长一个数量级。如果假设两代 GPT 之间间隔 5 年,那么 GPT-6 实际上只需要全球计算机数量的 1/10,而GPT-7需要 1/3。全球 1/3 的计算机还是很多。

当所有其他人工智能公司也想要计算机的时候,OpenAI无法获得世界上 1/3 的计算机。因此,不得不大幅扩大制造芯片的规模。

GPT-4 训练耗能约 50 GWh。使用乘数因子 30 倍,预计 GPT-5 需要 1500 GWh,GPT-6 需要 45000 GWh,GPT-7 需要 130 万GWh。

假设训练运行持续 6 个月,即 4320 个小时。这意味着 GPT-6 将需要 10 GW(1000亿GWh)——大约是世界上最大的发电厂三峡大坝发电量的一半。GPT-7 将需要15个三峡大坝电量。这 "不仅仅是全世界生产的总电力,而是可以买到的电力"。这需要电力离数据中心很近。最好的选择是将北溪管道连接到数据中心,或者使用核聚变反应堆发电。

(山姆·奥特曼正在研究核聚变发电,但这似乎只是巧合。至少从 2016 年开始,他就对核聚变产生了兴趣)。

人工智能为了解其领域如何运作,需要阅读的文本、图像或其他数据。GPT-3 使用了 3000 亿个tokens。GPT-4 使用了 13 万亿个tokens(另一种说法是 6 万亿个tokens)。看起来30 倍的乘数因子仍然有效,但理论上训练数据的扩展应该是计算量的平方根——所以你应该假设 5.5 倍的扩展因子。这意味着 GPT-5 将需要接近 50 万亿个tokens,GPT-6 将需要数以百万亿个tokens,GPT-7 将需要上兆个tokens。

但全世界没有那么多文本。如果把所有出版的书籍、Facebook 消息、推特、短信和电子邮件加在一起,也许还能多出几万亿。如果人工智能学会理解所有图像、视频和电影,或许可以得到更多。但似乎无法达到一百万亿,更不用说一兆了。

除非人工智能可以用更少的训练数据来学习东西。就像人脑不需要阅读世界上所有的文字,也能学习东西。但目前还无法做到这一点。

更有前景的是合成数据,即人工智能为自己生成数据。例如,你可以用合成数据训练国际象棋人工智能,让它与自己对弈一百万次。你可以训练数学人工智能,让它随机生成证明步骤,最终偶然发现一个正确的步骤,自动检测出正确的证明,然后在这个步骤上进行训练。你可以训练玩视频游戏的人工智能,让它随机做出动作,然后看哪个动作得分最高。

一般来说,如果不知道如何创建好的数据,但知道如何在数据存在后识别它时,那就可以使用合成数据(例如,国际象棋人工智能赢得了与自己的比赛,数学人工智能得到了一个正确的证明,视频游戏人工智能得到了一个好分数)。但目前在识别书面文本方面还无法做到。

另外,算法进展意味着 "人工智能取得突破",这通常每五年左右要取得数量级的进展。

所以,GPT-5 可能需要全世界 1%的计算机、一个小型发电厂的能源以及大量的训练数据。

GPT-6 可能需要全世界 10% 的计算机、一个大型发电厂的能源,以及比现有更多的训练数据。这可能是一个城镇规模的数据中心,连接着大量太阳能电池板或核反应堆。

GPT-7 可能需要世界上所有的计算机、超过现有任何发电厂的巨型发电厂,以及远远超过现有数量的训练数据。

建造 GPT-8 目前是不可能的。即使解决了合成数据和核聚变发电问题,并接管整个半导体行业也不可能。唯一的可能是GPT-7能帮助解决更廉价的制造成本,或者大幅提高全球经济增速提供资金。

所有关于 GPT 5以上的说法都是对现有趋势的预测,很可能是错误的,只是数量级的估计。

6733b796-49f1-4f77-94e8-72519f737e3f.png
如果CPT-5成功了……

GPT-6 可能会耗资 750 亿美元或更多。OpenAI 负担不起。微软或谷歌可也将耗费掉公司一半的资源。

如果 GPT-5 失败了,或者只是一个渐进式的改进,没有人再会愿意花费750亿美元来制作 GPT-6。

但如果GPT-5接近人类水平,甚至掀起一场工业革命级别的变革,那么花750亿美元制造下一个 GPT-6 就显得有意义。

GPT-5未必要足以为 GPT-6 的规划做出巨大贡献。但如果它能实现GPT-6或与之相关的芯片制造、发电的成本降低 10%也算是成功的。

那么迭代的结果就成为一个指数进程R。如果指数大于1,那么GPT将会呈现指数型增长。如果指数小于 1,则会逐渐消失。

也就是如果每一代人工智能都足够令人兴奋,从而激发更多投资,或降低下一代人工智能的成本,这两个因素结合起来,就能在正反馈循环(R > 1)中创造出下一代人工智能。

但是,如果每一代人工智能都不够令人兴奋,不足以激发创造下一代人工智能所需的大量投资,也无法帮助下一代人工智能降低成本,那么到了某个阶段,没有人愿意资助更先进的人工智能,当前的人工智能热潮也就会消退(R < 1)。

当然这并不意味着人工智能会淡出——人们可能会创造出令人惊叹的人工智能艺术、视频、机器人、甚至女朋友机器。只是大模型的智能不再会增长得那么快。

安全还是快速发展?

当山姆·奥特曼要求 7 万亿美元时,Alexander认为他希望集中、快速、高效的方式完成这一过程。自行建造芯片工厂和发电厂,为他的下一个大型模型做好准备。

如果他拿不到7万亿美元。这个过程也会发生,但更慢、更零碎、更分散。

Alexander倾向于第二种情况:从安全的角度来看,我们需要更多的时间为这项颠覆性的技术做好准备。

山姆·奥特曼此前也赞同这一立场!他希望人工智能的发展尽可能循序渐进,而不是突飞猛进。而保持循序渐进的方法之一,就是将现有芯片所能构建的人工智能水平发挥到极致,然后人工智能的发展速度(最差情况下)与芯片供应量相当。

但7万亿美元大跃进式地增加芯片供应!似乎与循序渐进的立场背道而驰。

如果OpenAI所谓的安全,是基于尽快扩大人工智能的规模相兼容为前提,这要如何让人放心?

本文主要翻译自Astral Codex Ten文章《Sam Altman Wants $7 Trillion》,原文作者Scott Alexander

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK