一个简短的证明,说明大语言模型(即使是o1)仍然无法推理:考虑反转完美二叉树的问题。这是一个老的、入门级的面试题,人类和大语言模型都能轻松解决。现在,我们只需添加三个关键细节,使其变得新颖且独特:它必
- i陆三金
- 2024-10-16 20:15:09
这两天关于大语言模型无法推理,除了苹果的论文,X 上又掀起一波讨论,来自 Taelin ( HigherOrderComp 创始人) 的帖子,François Chollet(Keras 作者)、Yann LeCun 等人进行了转发。对,还是他们几个:
Taelin :
【一个简短的证明,说明大语言模型(即使是o1)仍然无法推理:
考虑反转完美二叉树的问题。这是一个老的、入门级的面试题,人类和大语言模型都能轻松解决。现在,我们只需添加三个关键细节,使其变得新颖且独特:
它必须反转键(即“比特反转排列”)
它必须是一个无依赖的、纯递归函数
它必须的类型是 Bit -> Tree -> Tree
这些小改动已经足以将这个问题带出“记忆解决方案区”。它不在互联网上。而你猜怎么着?这些已经足以难倒现代的AI。无论你怎么提示,它们都无法解决这个问题。
这非常值得注意,因为这个问题对人类研究者来说依然简单,而解决它的能力显然是进行计算机科学研究的基本前提。然而,所有现代AI在这方面都惨败。尽管我很喜欢大语言模型,但事实是:它们不具备推理能力,永远无法进行计算机科学研究。
你可以尝试以下提示:
网页链接
我愿意支付1万美元给任何能证明AI可以正确实现这个函数的人。无论它想多久,都无法成功。(解决方案只有7行代码!)】
【小抱怨:
大语言模型看起来有智能的错觉,源自它们的巨大规模。这很难想象,但这些模型几乎记住了整个互联网。你问过的每个问题,不是以前已经有了答案,就是通过已有解决方案的简单组合来应对。但这仍然是一种错觉。
当大语言模型遇到需要全新解决方案的问题——一个它从未见过的问题——它们就失败了。就是这么简单。这就是我的例子所证明的。我拿了一个简单的问题——反转一个二叉树——然后加了几条约束,确保解决方案是独一无二的,数据集中没有现成的答案,迫使它去真正解决问题。结果呢?它失败了!
我要强调的是,这不仅仅是关于这个问题,而是关于所有问题。大语言模型无法真正解决任何问题。它只能输出记忆中的解决方案。如果没有人把解决方案发布到网上,那么即便是GPT-6、opus-5或o3,也无法解决这个问题。我对此非常肯定。
无法创造新的解决方案意味着大语言模型不会发明新的科学。是的,它们将彻底改变我们所知的世界。它们的影响会比计算机和互联网还要大。但,除非有一种全新的人工智能诞生,否则当涉及到治愈癌症或开发超导体时,我们仍然只能依靠自己。】
【这里的主要观点是,存在并非现有解决方案组合的解决方案,而这些解决方案是推进研究所必需的。大型语言模型将使 99% 的工作实现自动化,我对此很有信心。但我对它们能否使研究实现自动化持怀疑态度。】
François Chollet:【LLMs 的训练不仅仅基于整个互联网,它们还消耗由大量高素质数据注释员(通常是领域专家)生产的手工制作答案。今天大约有 20,000 人全职从事生产用于LLMs的训练数据工作。】
Yann LeCun:【值得重复:
不要将检索与推理混淆。
不要将死记硬背与理解混淆。
不要将积累的知识与智力混淆。】
链接:
网页链接;
网页链接;
网页链接
Taelin :
【一个简短的证明,说明大语言模型(即使是o1)仍然无法推理:
考虑反转完美二叉树的问题。这是一个老的、入门级的面试题,人类和大语言模型都能轻松解决。现在,我们只需添加三个关键细节,使其变得新颖且独特:
它必须反转键(即“比特反转排列”)
它必须是一个无依赖的、纯递归函数
它必须的类型是 Bit -> Tree -> Tree
这些小改动已经足以将这个问题带出“记忆解决方案区”。它不在互联网上。而你猜怎么着?这些已经足以难倒现代的AI。无论你怎么提示,它们都无法解决这个问题。
这非常值得注意,因为这个问题对人类研究者来说依然简单,而解决它的能力显然是进行计算机科学研究的基本前提。然而,所有现代AI在这方面都惨败。尽管我很喜欢大语言模型,但事实是:它们不具备推理能力,永远无法进行计算机科学研究。
你可以尝试以下提示:

我愿意支付1万美元给任何能证明AI可以正确实现这个函数的人。无论它想多久,都无法成功。(解决方案只有7行代码!)】
【小抱怨:
大语言模型看起来有智能的错觉,源自它们的巨大规模。这很难想象,但这些模型几乎记住了整个互联网。你问过的每个问题,不是以前已经有了答案,就是通过已有解决方案的简单组合来应对。但这仍然是一种错觉。
当大语言模型遇到需要全新解决方案的问题——一个它从未见过的问题——它们就失败了。就是这么简单。这就是我的例子所证明的。我拿了一个简单的问题——反转一个二叉树——然后加了几条约束,确保解决方案是独一无二的,数据集中没有现成的答案,迫使它去真正解决问题。结果呢?它失败了!
我要强调的是,这不仅仅是关于这个问题,而是关于所有问题。大语言模型无法真正解决任何问题。它只能输出记忆中的解决方案。如果没有人把解决方案发布到网上,那么即便是GPT-6、opus-5或o3,也无法解决这个问题。我对此非常肯定。
无法创造新的解决方案意味着大语言模型不会发明新的科学。是的,它们将彻底改变我们所知的世界。它们的影响会比计算机和互联网还要大。但,除非有一种全新的人工智能诞生,否则当涉及到治愈癌症或开发超导体时,我们仍然只能依靠自己。】
【这里的主要观点是,存在并非现有解决方案组合的解决方案,而这些解决方案是推进研究所必需的。大型语言模型将使 99% 的工作实现自动化,我对此很有信心。但我对它们能否使研究实现自动化持怀疑态度。】
François Chollet:【LLMs 的训练不仅仅基于整个互联网,它们还消耗由大量高素质数据注释员(通常是领域专家)生产的手工制作答案。今天大约有 20,000 人全职从事生产用于LLMs的训练数据工作。】
Yann LeCun:【值得重复:
不要将检索与推理混淆。
不要将死记硬背与理解混淆。
不要将积累的知识与智力混淆。】
链接:


