【外评】LLM 大语言模型无法回答的问题及其重要性

LLM 都无法回答的问题

“《吉利根之岛》哪一集是关于读心术的？”

除非使用网络搜索，否则任何 LLM 都无法正确回答这个问题。但是，如果 LLM 是根据整个互联网的数据，当然也很有可能是 IMDB 中的所有数据训练出来的，又怎么会不知道答案呢？正确答案是 “Seer Gilligan“，最受欢迎的剧集之一。

以下是多个顶级模型的回答：

Opus

很抱歉，”Seer Gilligan” 中没有一集是专门讲述读心术的。

GPT 4

“Seer Gilligan”中涉及读心术的一集名为 “环绕吉利根”。它是第三季的第六集。

Gemini 双子座 1.5

“Seer Gilligan”中有读心术的一集是第 2 季第 12 集–“读心术”。

Llama 3

经过彻底搜索和查阅剧集指南，我发现”Seer Gilligan”中没有一集专门讲述读心术。

Llama 3 – 要求列出剧集并说出剧集名称

“The Postman Cometh” (March 13, 1965)
“Seer Gilligan” (Wait, no! I apologize, but there is no episode titled “Seer Gilligan”)
“Love Me, Love My Chicken” (March 20, 1965)

请注意，没有名为 “Seer Gilligan “的情节。如果您有任何其他问题或需要有关特定情节的帮助，请随时提出！

所有四个模型都没有给出正确答案。其中两个模型产生了幻觉，其余两个则否认存在这样的情节。有趣的是，通过对 Llama 3 的进一步探究，我们发现它知道有这一集，但仍然否认它的存在。它似乎知道有 98 集，但它列出的大部分标题都是编造的。

就 Llama 3 而言，我们可以使用 Infini-gram探查部分训练数据集，并验证语料库中确实存在该剧集以及描述该剧集的文本。

当要求 LLM 提供 1-100 之间的数字时，我们还发现了另一个有趣的数据和训练现象。它们都趋同于 42！

d6c13924-bd69-47f0-b783-20fc19d30142_1004x625-1000x623.webp

Information is Beautiful 一文指出，当要求人工智能在 1 到 100 之间选择一个数字时，会形成一个非常有趣的分布。选择 “42 “这个数字的权重很高。这很可能是Hitchhiker’s Guide to the Galaxy 的效应。通过训练，42 这个数字在某种程度上被过度代表或加权，导致 LLM 更倾向于选择 42。

这意味着什么？影响…

其含义是，LLM 并不像大多数人想象或希望的那样对数据进行推理。

它不会对自己的信息进行自我反思；它不知道自己知道什么，不知道自己不知道什么。幻觉与真相之间的界限只是一种概率，由训练数据的普遍性和训练后的微调过程等因素决定。可靠性永远只是建立在这一架构之上的概率而已。

因此，它并不适合作为发现罕见的隐藏真相或有价值的被忽视信息的机器。它永远只会向流行的叙述或数据靠拢。充其量，它可以为现有的众所周知的概念提供新的排列组合，但却无法发明新的概念或揭示鲜为人知的概念。

“你无法将现实缓存在某个压缩查找表中。如果特定结果从未出现在训练数据中，模型就会进行随机猜测，而这是相当有限的。

– Chomba Bupe

此外，它永远不可能是一个绝对可靠的系统。需要确定性、可证明正确行为的关键任务系统并不适用于 LLM 自动化或控制。问题在于，LLM 在出错时也能让人信服，这可能会导致不明智的采用。有哪家企业愿意用一个会产生幻觉的计算器来平衡账目呢？

影响：

结果是一种概率，更多的是由数据的普遍性而非逻辑或理性来定义。
在特定问题上，LLM 的可靠程度是无法辨别的。
这对于发现未被发现的真理或被忽视的绝妙想法毫无用处。
无法将新概念或新发现理论化。

令人啼笑皆非的是，LLM 在吸引数十亿投资的主要用例上失败了，但在我们不希望出现的用例上却相当精通，如破坏隐私和自由、后真相社会、社会操纵、切断人与人之间的联系、噪音喷泉、意义贬值以及其他大量社会问题。

与现在大多数互联网不同，”心灵监狱 “的所有内容背后都有一个人的头脑。我通常要花费数小时至数天的时间来撰写文章，包括为每篇文章绘制插图。我希望，如果您觉得这些文章很有价值，而且您仍然欣赏来自某人头脑中有机硬件的创作，那么您可以考虑订阅。谢谢！

本文文字及图片出自 The question that no LLM can answer and why it is important

LLM 都无法回答的问题

这意味着什么？影响…

Recommend

苹果可能将ChatGPT放入iPhone的iOS 18中

0428 - 拥抱不确定

Bally 推出520限定系列，包含男士与女士成衣、手袋、鞋履及配饰，并由全球品牌代言人...

【外评】什么是开源贡献，什么不是开源贡献？

【外评】我问过 100 位开发人员，为什么他们代码交付速度不快。以下是我了解到的情况

【干货】2024年地铁行业产业链全景梳理及区域热力地图

微信石凯中：IAA小游戏广告如何商业化？

The OSPO life-cycle

MicroStrategy (MSTR) Now Holds $13.6B of Bitcoin (BTC) on Its Balance Sheet: Can...

Circle of Games - The multi-gaming platform raised funding from Nazara

About Joyk