当Sam Altman想要七万亿美元....

Astral Codex Ten 发表于 2024年02月18日 11:04

摘要：融资7万亿美元，钱是GPT迭代中最容易的部分。

华尔街见闻前期文章提到，山姆·奥特曼计划筹资7万亿美元建芯片帝国。

7万亿美元，基本相当于是全球GDP的10%。消息一出，舆论哗然。

尽管山姆·奥特曼大概率也得不到这笔钱，但来自Astral Codex Ten的热门评论Scott Alexander认为，这不仅是对未来人工智能规模化条件的思考，也是对人工智能迭代形式（安全or跃进）的思考。

基本逻辑：GPT-1 的培训费用大约为零。GPT-2花费4万美元。GPT-3耗资400万美元。GPT-4耗资1亿美元。GPT-5的细节仍是秘密，粗略估计是25亿美元。

因此，如果每个GPT版本的成本是上一个的25到100倍。这里假设平均为30倍。这意味着GPT-6 将耗资750亿美元，GPT-7 将耗资2万亿美元。(条件是 "GPT-6 "要比 GPT-5 超前整整一代，如同GPT-4与GPT-3的差距一样大。）

把GPT的成本分解来看，训练人工智能需要：

计算（即计算能力、硬件、芯片）
电力（为计算提供动力）

计算以浮点运算 (FLOPs) 为单位。GPT-3 训练需要 10^23次浮点运算，GPT-4 可能需要 10^25次浮点运算。

世界上所有计算机的容量约为 10^21 次浮点运算/秒，因此他们可以在 10^4 秒（即两小时）内完成 GPT-4 的训练。OpenAI 花了 6 个月的时间，这表明OpenAI 使用的计算机数量约为世界上所有计算机的 1/2000。

如果保持 30 倍的乘数因子，GPT-5 将使用世界上所有计算机的 1/70，GPT-6 将使用现存计算机的 1/2，GPT-7 使用的计算机数量将是现有计算机总数的 15 倍。世界的计算能力增长很快——该资料称每 1.5 年翻一番，这意味着每五年增长一个数量级。如果假设两代 GPT 之间间隔 5 年，那么 GPT-6 实际上只需要全球计算机数量的 1/10，而GPT-7需要 1/3。全球 1/3 的计算机还是很多。

当所有其他人工智能公司也想要计算机的时候，OpenAI无法获得世界上 1/3 的计算机。因此，不得不大幅扩大制造芯片的规模。

GPT-4 训练耗能约 50 GWh。使用乘数因子 30 倍，预计 GPT-5 需要 1500 GWh，GPT-6 需要 45000 GWh，GPT-7 需要 130 万GWh。

假设训练运行持续 6 个月，即 4320 个小时。这意味着 GPT-6 将需要 10 GW（1000亿GWh）——大约是世界上最大的发电厂三峡大坝发电量的一半。GPT-7 将需要15个三峡大坝电量。这 "不仅仅是全世界生产的总电力，而是可以买到的电力"。这需要电力离数据中心很近。最好的选择是将北溪管道连接到数据中心，或者使用核聚变反应堆发电。

(山姆·奥特曼正在研究核聚变发电，但这似乎只是巧合。至少从 2016 年开始，他就对核聚变产生了兴趣）。

人工智能为了解其领域如何运作，需要阅读的文本、图像或其他数据。GPT-3 使用了 3000 亿个tokens。GPT-4 使用了 13 万亿个tokens（另一种说法是 6 万亿个tokens）。看起来30 倍的乘数因子仍然有效，但理论上训练数据的扩展应该是计算量的平方根——所以你应该假设 5.5 倍的扩展因子。这意味着 GPT-5 将需要接近 50 万亿个tokens，GPT-6 将需要数以百万亿个tokens，GPT-7 将需要上兆个tokens。

但全世界没有那么多文本。如果把所有出版的书籍、Facebook 消息、推特、短信和电子邮件加在一起，也许还能多出几万亿。如果人工智能学会理解所有图像、视频和电影，或许可以得到更多。但似乎无法达到一百万亿，更不用说一兆了。

除非人工智能可以用更少的训练数据来学习东西。就像人脑不需要阅读世界上所有的文字，也能学习东西。但目前还无法做到这一点。

更有前景的是合成数据，即人工智能为自己生成数据。例如，你可以用合成数据训练国际象棋人工智能，让它与自己对弈一百万次。你可以训练数学人工智能，让它随机生成证明步骤，最终偶然发现一个正确的步骤，自动检测出正确的证明，然后在这个步骤上进行训练。你可以训练玩视频游戏的人工智能，让它随机做出动作，然后看哪个动作得分最高。

一般来说，如果不知道如何创建好的数据，但知道如何在数据存在后识别它时，那就可以使用合成数据（例如，国际象棋人工智能赢得了与自己的比赛，数学人工智能得到了一个正确的证明，视频游戏人工智能得到了一个好分数）。但目前在识别书面文本方面还无法做到。

另外，算法进展意味着 "人工智能取得突破"，这通常每五年左右要取得数量级的进展。

所以，GPT-5 可能需要全世界 1%的计算机、一个小型发电厂的能源以及大量的训练数据。

GPT-6 可能需要全世界 10% 的计算机、一个大型发电厂的能源，以及比现有更多的训练数据。这可能是一个城镇规模的数据中心，连接着大量太阳能电池板或核反应堆。

GPT-7 可能需要世界上所有的计算机、超过现有任何发电厂的巨型发电厂，以及远远超过现有数量的训练数据。

建造 GPT-8 目前是不可能的。即使解决了合成数据和核聚变发电问题，并接管整个半导体行业也不可能。唯一的可能是GPT-7能帮助解决更廉价的制造成本，或者大幅提高全球经济增速提供资金。

所有关于 GPT 5以上的说法都是对现有趋势的预测，很可能是错误的，只是数量级的估计。

如果CPT-5成功了……

GPT-6 可能会耗资 750 亿美元或更多。OpenAI 负担不起。微软或谷歌可也将耗费掉公司一半的资源。

如果 GPT-5 失败了，或者只是一个渐进式的改进，没有人再会愿意花费750亿美元来制作 GPT-6。

但如果GPT-5接近人类水平，甚至掀起一场工业革命级别的变革，那么花750亿美元制造下一个 GPT-6 就显得有意义。

GPT-5未必要足以为 GPT-6 的规划做出巨大贡献。但如果它能实现GPT-6或与之相关的芯片制造、发电的成本降低 10%也算是成功的。

那么迭代的结果就成为一个指数进程R。如果指数大于1，那么GPT将会呈现指数型增长。如果指数小于 1，则会逐渐消失。

也就是如果每一代人工智能都足够令人兴奋，从而激发更多投资，或降低下一代人工智能的成本，这两个因素结合起来，就能在正反馈循环（R > 1）中创造出下一代人工智能。

但是，如果每一代人工智能都不够令人兴奋，不足以激发创造下一代人工智能所需的大量投资，也无法帮助下一代人工智能降低成本，那么到了某个阶段，没有人愿意资助更先进的人工智能，当前的人工智能热潮也就会消退（R < 1）。

当然这并不意味着人工智能会淡出——人们可能会创造出令人惊叹的人工智能艺术、视频、机器人、甚至女朋友机器。只是大模型的智能不再会增长得那么快。

安全还是快速发展？

当山姆·奥特曼要求 7 万亿美元时，Alexander认为他希望集中、快速、高效的方式完成这一过程。自行建造芯片工厂和发电厂，为他的下一个大型模型做好准备。

如果他拿不到7万亿美元。这个过程也会发生，但更慢、更零碎、更分散。

Alexander倾向于第二种情况：从安全的角度来看，我们需要更多的时间为这项颠覆性的技术做好准备。

山姆·奥特曼此前也赞同这一立场！他希望人工智能的发展尽可能循序渐进，而不是突飞猛进。而保持循序渐进的方法之一，就是将现有芯片所能构建的人工智能水平发挥到极致，然后人工智能的发展速度（最差情况下）与芯片供应量相当。

但7万亿美元大跃进式地增加芯片供应！似乎与循序渐进的立场背道而驰。

如果OpenAI所谓的安全，是基于尽快扩大人工智能的规模相兼容为前提，这要如何让人放心？

本文主要翻译自Astral Codex Ten文章《Sam Altman Wants $7 Trillion》，原文作者Scott Alexander

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

当Sam Altman想要七万亿美元....

当Sam Altman想要七万亿美元....

Recommend

Skywalking Docker单机环境搭建 - NoHairException

CorsixTH: Open-source clone of Theme Hospital

Calling all students: Learn how to become a Google Developer Student Club Lead

Meta CTO：Meta Quest将恢复眼动追踪功能

Spring Boot + MyBatis-Plus 实现 MySQL 主从复制动态数据源切换 - 古渡蓝按

How antitrust cases against tech giants could reshape the digital advertising la...

遍历用for还是foreach？ - 萤火架构

New Methods Solve Old Problems

2024初三集训模拟测试1 - xrlong

You can nab Respawn's singleplayer catalogue—including the Jedi: Fallen Order se...

About Joyk