秘密研究 3 年的项目登上 Nature！DeepMind 用 AI 控制核聚变，人造太阳实现新突破

谷歌 AI 团队再立新功：探索聚变反应堆的控制之道

由模拟器训练出的 AI 模型，有望在托卡马克中成为控制等离子体的重要手段。除了规模最大、被人们寄予厚望的 ITER 之外，目前全球各地还有众多设计风格相似的小型核聚变反应堆在新能源的道路上探索前行。这些被称为托卡马克的反应堆装置意在帮助我们测试配套硬件与软件，不断改进反应堆窗口壁的材料选择、以及等离子体控制磁场的形状与位置。

译注：核聚变装置，一种更为通俗的说法是“人造太阳”。因为太阳本身就是一座规模庞大的核聚变反应堆，而可控核聚变能源产生能量的原理与太阳发光发热的原理是一样的，因此也被称之为“人造太阳”。“人造太阳”是利用核聚变的原理在地面上建造的一座核聚变反应装置。（本段引用自《人造太阳的前世今生》，来源“我是科学家”。）

EPFL 托卡马克内部的等离子体。

但这只是硬件方面，软件的地位还更为重要。为了实现核聚变，托卡马克的控制软件必须随时监控容器内等离子体的状态，并通过系统实时调整磁场以响应状态变化。一旦调整跟不上变化，则有可能引发一连串意外：轻则能量释放下降（导致聚变中止），重则导致等离子体溢出安全壳（并烧焦容器壁）。

于是乎，利用强大软件正确控制磁场与场内的等离子体就成了摆在前面的现实挑战。但这样的软件从何而来？

如今，谷歌旗下 DeepMind AI 团队再取得新的突破，宣布已经成功训练出能够控制“托卡马克”装置的 AI 软件。2 月 17 日，DeepMind 最新的研究论文：已刊登在《Nature》（https://www.nature.com/articles/s41586-021-04301-9）上。

为托卡马克装置开发控制软件绝非易事。根据过往的相关设计经验，工程师们只能初步总结出软件运行中应当遵循的基本原理，例如需要读取哪些传感器输入、如何响应某些特定变化之类。然而，根据硬件设计与等离子体能量级的不同，反应堆的运转过程总会闹出些“意外”。因此，必须要有一个严谨的测量与建模迭代过程，由工程师对控制流程做出持续调整，以近实时方式确保反应堆始终拥有理想的释能水平。

这就对控制软件的专业性提出了极高要求。而一旦研究人员希望改变托卡马克中的等离子体几何形状（例如出于实验需求），往往也得对控制软件做出重大修改。

既然问题已经确定，核聚变研究人员们意识到 AI 有望成为一种可行的解决方案。

只要为正确的 AI 模型提供充足的示例，它就能把控制配置与等离子体的属性变化匹配起来。如此一来，研究人员只需认真设计自己想得到的最终状态，AI 软件就能生成与之对应的控制方式，大大简化聚变研究流程。

此外，AI 方案也更为灵活：只要掌握了控制系统的训练诀窍，它就能在无需重新编程的情况下快速生成多种多样、各不相同的等离子体配置方案以供研究。

理论探讨结束，接下来需要的就是 AI 专家和“托卡马克”装置了。

谷歌旗下的 DeepMind AI 部门决定下场一试。这是一支极具战斗力的队伍，之前就凭借着蛋白质折叠结构预测和《星际争霸》AI 玩家模型设计等成果一次次震撼业界。而本次实验的托卡马克装置，则由位于洛桑 EPFL 的瑞士等离子体中心负责提供。

在训练中揭开聚变的奥秘

在早期训练阶段，当然不能贸然将 AI 模型部署在真实硬件之上。为此，DeepMind 团队决定先从瑞士等离子体中心的托卡马克模拟器硬件起步。别看是模拟器，仿真度仍然很高；研究人员还为 AI 编程设定了限制，要求模型直接丢弃那些无法在模拟器中产生准确结果的配置。

经过反复迭代，DeepMind 最终训练出一款深度强化学习程序，足以控制模拟器完成种种复杂的等离子体配置操作。

在训练过程中，AI 模型的中间软件层负责提供奖励函数，这代表着等离子体表现出的特性与所需状态较为接近。模型中的另一种算法则被称为“批评者（critic）”，专门学习如何准确预测不同配置与托卡马克内控制磁场变化之间的对应关系。而这些设计的输出，最终都被交付至控制神经网络、用于学习控制托卡马克装置的“终极奥义”。

“批评者”算法非常复杂，计算成本也很高，但好在只需要在训练阶段使用。在训练完成之后，控制算法已经知道该采取哪些操作来达成不同状态，这时候“批评者”算法也就不必持续运行了。

为了获得良好的实时性能，研究团队还将经过训练的控制程序打包成可执行文件。首先由标准控制软件激活托卡马克装置并使等离子体达到高能量状态；待等离子体趋于稳定，控制权就将被移交给 AI 程序。

大获成功！

在真实硬件上，软件的最终性能与研究团队的预期高度一致。这款软件能够随时间推移、结合不同的实验条件达成控制要求——在其中一项测试中，它先是提高了输出能级、让等离子体保持稳定，随后开始改变等离子体的几何形状、将等离子体引导至托卡马克容器内的另一位置，最终成功降低能级；而在另一项测试中，它还在同一托卡马克装置内成功生成了两个相互独立的等离子体结构。

DeepMind AI 控制下生成的几种不同等离子体几何形状。

作者们还在论文中提到了这项实验的严苛要求。他们首先需要一套托卡马克模拟器，既要详尽、又要准确，而且足够紧凑以快速提供反馈。只有这样，强化学习模型的训练才可能实现。另外，训练数据集中必须包含移交控制权所需要的常规条件，帮助模型学习把常规条件与实验测试中的非常规条件区分开来。再有，研究人员还需要不断增强控制软件规模，用以评估大量潜在的控制选项，同时探索怎样把这种反应极快的执行控制器编译成可执行文件。

研究人员们为这项成果对于未来工作的启发而振奋不已。他们认为在后续研究中，也许不必把眼光局限在对已有硬件的建模上，而是可以在纯软件层面持续迭代、探索更多可能的等离子体配置，再据此设计出新的硬件方案乃至容器形态。当然，这款软件也可以进一步优化现有硬件的性能。

AI 已经就绪，现在只待一处能够让它尽情施展的聚变反应堆了！

DeepMind 的这一成就虽然意义重大，但也只是迈向可控核聚变新能源的一小步。

研究团队明确提到，对托卡马克装置的模拟流程需要几个小时的计算时长、才能得出一秒钟的实时控制方案。而托卡马克装置的状态每天都在变化；此外，现有算法还需要在物理和模拟方面做出进一步改进。

DeepMind 的这篇最新论文也让不少研究者想起“非线性动力学”这一经典问题。目前高校教育范围内涉及的大部分内容仅限于线性范畴——只要稍微改变输入，输出就会随之略有变化。然而，相当一部分真实物理现象是非线性的——小小的输入改变，有可能随时间推移而发展成剧变。这就是所谓“蝴蝶效应”，在气候气象、星际气体和聚变反应堆内的等离子体等流体问题中都有体现。正是这种非线性，阻断了我们对后续影响的准确预测。目前的主流解决思路在于，只要对场景做出精密控制，就能把蝴蝶效应的影响降到最低——就像我们打开淋浴喷头，就算不清楚每一滴水如何涌出、又最终流出哪里，但水的整体流速和随时间推移而喷出的总流量还是可以把握的。

我们也没法判断可控核聚变的商业化应用何时才能实现。有人认为还有二十年、也有声音认为还需要三十年，总之一般观点是至少还要几十年的持续研究才有可能开启这座取之不竭的能源宝库。

尽管如此，DeepMind 仍然大胆断言，AI 技术的加入一定能够加速核聚变能源的商业化步伐。

DeepMind 团队的 Jonas Buchli 在简报会上总结道，“如今科学领域面对的一切重大问题，都几乎无法被简化成清晰明确的一小组公式。在这样的世纪挑战面前，任何个人或者团队的力量都是微弱的。我们坚信，AI 将成为人类创造力的放大器，也将为我们开启进一步探索科技潜力的全新领域。今天，AI 系统已经足够强大，完全能够在众多现实问题中有所作为——其中也包括科学发现本身。”

参考链接：

https://venturebeat.com/2022/02/16/deepmind-applies-ai-to-controlling-nuclear-fusion-reactors/

https://arstechnica.com/science/2022/02/latest-success-from-googles-ai-group-controlling-a-fusion-reactor/

秘密研究3年的项目登上Nature！DeepMind用AI控制核聚变，人造太阳实现新突破-InfoQ

秘密研究 3 年的项目登上 Nature！DeepMind 用 AI 控制核聚变，人造太阳实现新突破

在训练中揭开聚变的奥秘

大获成功！

Recommend

An Angular Dev Tries Svelte

《MySQL入门很轻松》第5章：数据完整性及其分类 - InfoQ 写作平台

还在用ES查日志吗，快看看石墨文档 Clickhouse 日志架构玩法-InfoQ

看SparkSQL如何支撑企业级数仓 - InfoQ 写作平台

On Our Way to Longevity—Why We Introduced Sabbaticals to Monterail's Organizatio...

Kubernetes集群仪表盘dashboard&Kuboard安装Demo - InfoQ 写作平台

种类丰富的材质库，让开发者建模轻松高效

数字化的尽头是“终身学习”

构建高效且可伸缩的结果缓存

过度设计会扼杀你的产品

About Joyk