Google研究人员推出大模型新基准BIG-Bench，442位作者提出204项任务，可测量模型行为...

麻省理工科技评论-Google研究人员推出大模型新基准BIG-Bench，442位作者提出204项任务，可测量模型行为并完成需求预测

Google研究人员推出大模型新基准BIG-Bench，442位作者提出204项任务，可测量模型行为并完成需求预测

如果我们仔细思考一下从量子场论到原子物理学、化学、生物学，再到生态学这一系列学科的逻辑递进和层次结构，就会发现一个有意思的现象，即在科学领域：规模的扩大往往会得到新的规律或发现，甚至创造全新的领域。从

如果我们仔细思考一下从量子场论到原子物理学、化学、生物学，再到生态学这一系列学科的逻辑递进和层次结构，就会发现一个有意思的现象，即在科学领域：规模的扩大往往会得到新的规律或发现，甚至创造全新的领域。

从此学科到彼学科，每个关卡都展示出了新的行为，也构成了一个丰富的学科主题。所以，或许我们可以得出这样一个结论：数量本身也有质量，数量的大量增加往往会给系统注入具有定性意义的新行为。

在计算机领域也有类似的现象，当语言模型的规模扩大时，也会在性质上表现出新的行为。比如，尽管语言模型目前拥有的所有能力，都不如只在有限领域拥有一定知识的人类，但其已经在语言翻译、编写代码、诊疗疾病等方面发挥了突破性的作用。研究人员可以观察到这些能力的变化，但在新突破发生时，却无法可靠预测规模的变化。

如果语言模型逐渐增大，其数量和质量方面的变化也会拥有潜在的变革性。大型语言模型可能支持更高级的应用程序，也可能会取代人类完成以文本响应为框架的广泛任务。

如果不对其进行适当的控制，它们还可能吸收更多的社会偏见，并反映在技术堆栈和相应的决策过程中。

所以，研究人员必须了解语言模型本身的能力和局限，以及随着模型的演进，这些能力和局限会如何变化。这既有利于推动新技术的发展，又有利于预测模型行为是否偏离人类意图，以便及时采取措施减轻那些潜在的对社会的有害影响，还有利于研究人员将研究精力聚焦到最有前途的方向，避免不当投入研究资源。

“计算机科学之父”艾伦·麦席森·图灵（Alan Mathison Turing）曾于 1950 年在《计算机器与智能》（Computing machinery and intelligence）这篇论文中论述过一个观点：“学习机器有一个重要的特征，即它的老师往往对机器内部运行情况一无所知。”

因此，需要说明的是，由于存在以下局限，目前的语言建模基准测试还不能满足研究人员对语言模型行为的理解，和对未来行为预测的需求。

第一个局限是许多基准测试主要针对语言模型中、那些已被证明具有一定熟练程度的少数功能，目标范围有限；
第二个局限是目前语言模型基准测试的有效寿命较短，不能容纳远超当前能力的任务；
第三个局限是当前基准测试使用的数据大多是人为标记搜集的，可能会降低结果的可解释性。

考虑到大型语言模型的潜在变化性影响至关重要，而目前的基准测试又有局限性，为了解决这个问题，谷歌研究人员引入了一个大规模的、非常复杂且具有多样化的基准测试，即超越模仿游戏基准（Beyond the Imitation Game Benchmark，BIG-bench），以在这个基准之上测量模型的性能。

这项任务的主要目标并非是简单地判断模型与人类的区别，而是为了提取与模型行为相关的信息。

日前，相关论文以《超越模仿游戏：量化和推断语言模型的能力》（Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models）为题在 arXiv 上发表[1]。

图｜相关论文（来源：arXiv）

BIG-bench 包含了 204 项任务，来自 132 个机构的 442 位作者为此做出了贡献。这个基准的任务主题非常多样。

同时，BIG-bench 主要聚焦当前的语言模型无法完成的任务。它评估了一些经典模型的行为，包括 OpenAI 的 GPT 模型、Switch-style sparse transformer 模型等，模型规模参数有数百万级别的，也有千亿级别的。此外，为了提供可靠的参考，研究人员还另外设置了人工评审团来参与所有任务的执行。

（来源：arXiv）

谷歌研究人员还设计了一个名为“BIG-bench Lite”的任务子集，它是一个非常有代表性的、小而规范的任务子集，完成评估的速度比整个基准测试的评估速度更快，十分方便其他机构的研究人员使用。

研究结果可以总结为以下几个方面：

第一，虽然各种模型性能、校准等方面的表现会随着规模的不断扩大而稳步提升，但与人类的标准水平相比，还远不能及。

第二，由于稀疏性的存在，不同类别的模型在性能方面非常相似。