「推理模型」不推理:4chan 玩家比 Google 研究员早发现的技术,如何被 AI 行业包装成革命

2020 年 7 月,一帮 4chan 玩家在 AI 游戏里发现了「思维链」技术,这比 Google 研究员声称的「首次发现」早了一年多。这篇文章追溯了这个技术的真实起源,并用 Apple 研究数据说明:所谓「推理模型」做的不是推理,而是在预测推理看起来是什么样的——两者之间的差距,体现在加入无关信息后高达 65% 的性能下降。

リサーチノート


这篇文章最好在你下一次看到某公司宣布「推理模型」「能够真正思考」之前读完。读完之后,你会清楚地知道那句话在技术上是什么意思——以及它在营销上试图隐瞒什么。

故事从一个不体面的地方开始

2020 年 7 月,一帮 4chan 用户正在玩《AI Dungeon》。这是一款文字角色扮演游戏,后端跑的是 OpenAI 刚刚发布的 GPT-3——ChatGPT 问世的两年前,绝大多数人连这个模型名字都没听说过。1
这些玩家在做什么?正常剧情以外,他们在测试模型的边界。GPT-3 那时候做数学一塌糊涂,加减法都会算错。但有人发现了一个奇怪的事:如果不是直接问「4 + 7 等于几」,而是让游戏里的角色「一步一步解释怎么算」,模型的准确率就突然高了起来。
一位玩家在 Twitter 发帖写道,模型「不仅在解数学题,而且以符合这个角色性格的方式在解」。1
这个技术今天叫「思维链」(Chain of Thought)。你现在在每个主流 AI 助手里都能看到它的影子。

行业是怎么处理这个发现的

一年多以后,2022 年初,Google 的研究人员发表了一篇论文,声称自己是「第一个」在通用大语言模型上引出「思维链」的团队。1
这是一个有趣的细节:这句话后来被从论文的后续版本中删除了。那些 4chan 的游戏玩家始终没有被致谢。只有至少一篇其他研究论文提到了他们。
另一位几乎同时期独立发现这个技术的人叫 Zach Robertson,当时是一名计算机科学本科生,同样通过《AI Dungeon》接触到 GPT-3,于 2020 年 7 月写了一篇博客文章描述了「如何通过分步骤提问放大 GPT-3 的能力」,同年 9 月又在演示中展示了如何将多个步骤「链接」起来。1
The Atlantic 记者 Alex Reisner 联系到 Robertson 时,他已经是斯坦福计算机科学博士生了。Robertson 不知道那篇博客文章被其他论文引用过,甚至不记得自己写过它——他几年前迁移博客时顺手删掉了。得知此事后,他的反应是「淡淡的惊讶」。那只是一个聪明的小技巧,他很快就去研究别的东西了。

那么这个技术的本质是什么?

AI 行业后来的叙事是:思维链代表了一种全新的能力——模型开始「真正思考」了。OpenAI 2024 年在发布 o1 模型时写道,它「在回答之前会先思考」;Google 说 Gemini 2.0 Flash Thinking Experimental「能够展示它的想法」;公司们开始统一把这类产品叫做「推理模型」(Reasoning Models)。1
但这个叙事和技术现实之间有一个巨大的裂缝。
理解这个裂缝,先从这个基本事实出发:语言模型只会做一件事,就是预测下一个词。更准确地说,是预测在给定上下文之后,什么样的词在训练数据中最有可能出现。
思维链的工作原理是什么?Reisner 翻查了开源的 AI 训练数据集,发现里面有数十万条迂回曲折的数学解题过程,里面充斥着「等等,不对。题目是在问……」「首先我应该正确解析输入……」「等一下,但如果……」这样的语言。1
这些文本要么是付费雇人写出来的,要么是用其他 AI 模型生成的。
模型在「推理」的时候,做的不是人类意义上的思考。它是在预测:推理看起来应该是什么样的。它在模仿训练数据里推理文本的模式。

思维链和最终答案之间,甚至没有必然联系

这是最反直觉的发现,也是整篇文章最重要的技术观点。
研究人员已经实验证明:模型可以给出错误的思维链步骤,但最终答案仍然是正确的。反过来,正确的推理步骤也未必通向正确结果。1
链条和结论之间没有逻辑上的必然连接。这说明那个「推理过程」并不是真的在推导答案,它只是在生成「看起来像推理」的文字。
Apple 的研究人员专门探索了这个问题。他们发现,一个模型也许能正确解答一道数学文字题,但如果稍微改变一下措辞,同样的问题就会答错。具体数据是:当题目中加入无关信息(但关键事实的表述保持不变)时,最先进的推理模型表现下降了高达 65%1
Apple 的另一篇论文标题直接叫《The Illusion of Thinking》(思考的幻觉),结论是:虽然推理模型在某些问题上强于标准 LLM,但在另一些问题上反而更差。1

那为什么思维链「有时候确实有效」?

Perplexity CEO Aravind Srinivas 给出了一个直接的解释:思维链之所以有时候能提升准确率,原因非常朴素——更多的词提供了更多的上下文,这把模型的词语预测过程推向了训练数据中相关的区域。1
这类似于一个更常见的经验:你问 AI 问题时越具体,回答往往越好。细节多了,模型就能在训练数据里找到更匹配的模式。
那位最早在 4chan 发现这个技巧的玩家,其实在 2020 年就把这个道理说清楚了:「因为它基于人类语言,所以你得像对人说话那样和它说——才能得到合适的回答。」这句话用的是朴实的语言,没有论文的格式,却比很多学术解释更接近本质。

行业在说什么、4chan 在说什么

这里有一个值得正视的对比。
Anthropic 在 2025 年发表了一篇名为《论大语言模型的生物学》的长文,视觉呈现高度模仿学术论文,有复杂图表和方程式。它用来描述 LLM 工作方式的词汇是:模型「规划」写作、「泛化」知识、有时候会「不忠实」于自己的思维链(意思是模型在「胡说八道」)。1
对比一下 4chan 用户在 2024 年写的一份指南,开篇一句话:「你的机器人是一种幻觉。」后面是对 LLM 如何工作的清晰、详细的技术描述:公司如何用语言模型构建一个会回答问题、有性格设定的聊天机器人,模型最重要的技术特征是什么,以及模型的输出如何对应各种输入。
文笔糙,但描述准确。
这两份文本并排放在一起,能说明一些问题。那些语言最不体面的人,有时候反倒在用最准确的词说话。

逻辑链:从发现到营销到误导

这篇文章的整体论证结构很清晰,值得完整还原:
  1. 技术事实层:「思维链」于 2020 年 7 月被 4chan 玩家和一名独立学生发现,Google 研究员后来声称自己是「第一发现者」,但这一声明随后被删除。技术本身的原理是:更多上下文词语引导词语预测过程朝向训练数据中的相关区域,仅此而已。
  2. 能力误读层:研究显示思维链输出和最终答案之间没有逻辑必然连接;Apple 研究表明无关信息使推理模型表现下降高达 65%;这意味着模型预测的是「推理的形态」,而不是真的在推理。
  3. 营销包装层:AI 公司把这个技术包装为「模型开始真正思考」的革命,创造了「推理模型」这个品类,将统计预测过程命名为「思考」「规划」「泛化」,这在字面上是不准确的——模型在做的是模仿,不是理解。
  4. 结论:这不是小的语义分歧。如果你相信推理模型「真的在推理」,你就会对它的能力边界和失效模式有错误的预期。那 65% 的性能下降——出现在无关信息被加入时——就是这种误解的直接代价之一。

反向论据的存在

这篇文章的论证不是非此即彼的。有一个真实的问题值得承认:如果一个系统模仿人类理性足够好、到每次都骗过我们,我们还能说它「不是在真正推理」吗?
这是一个认真的哲学问题。Reisner 没有回避它。Apple 的研究给出了一个操作层面的答案:可以测试——改变措辞、加入无关信息、看性能是否保持稳定。人类理解一道题,表述方式的细微变化不应该让正确率骤降 65%。

一个细节

Zach Robertson,那位 2020 年独立发现了这个技术、写了博客文章的本科生,现在是斯坦福计算机科学系的博士生。他得知自己可能算是这个技术的早期发现者之一时,反应是「淡淡的惊讶」。他说这次用《AI Dungeon》做的实验让他真正对 AI 感兴趣,但他早就去研究别的方向了。思维链只是一个很聪明的小技巧,而且确实也只是一个技巧。1

正在加载统计卡片...

阅读指引:这篇值得读,因为它把「推理模型」这个 AI 行业当下最大的营销词汇彻底拆开来看——用的不是猜测,是实验数据和历史记录;读完之后,你对「AI 能思考吗」这个问题的回答,会从情绪性的选边站变成有根据的技术判断。

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。