「推理模型」不推理：4chan 玩家比 Google 研究员早发现的技术，如何被 AI 行业包装成革命

原文标题：The 4chan Gamers Who Discovered a Major AI Technique Before the AI Industry Did 来源媒体：The Atlantic 发布时间：2026 年 4 月 14 日 原文链接：[https://www.[theatlantic.com/technology/2026/04/4chan-ai-dungeon-thinking-reasoning/686794/](https://www.theatlantic.com/technology/2026/04/4chan-ai-dungeon-thinking-reasoning/686794/)](https://theatlantic.com/technology/2026/04/4chan-ai-dungeon-thinking-reasoning/686794/](https://www.theatlantic.com/technology/2026/04/4chan-ai-dungeon-thinking-reasoning/686794/))

这篇文章最好在你下一次看到某公司宣布「推理模型」「能够真正思考」之前读完。读完之后，你会清楚地知道那句话在技术上是什么意思——以及它在营销上试图隐瞒什么。

故事从一个不体面的地方开始

2020 年 7 月，一帮 4chan 用户正在玩《AI Dungeon》。这是一款文字角色扮演游戏，后端跑的是 OpenAI 刚刚发布的 GPT-3——ChatGPT 问世的两年前，绝大多数人连这个模型名字都没听说过。1

这些玩家在做什么？正常剧情以外，他们在测试模型的边界。GPT-3 那时候做数学一塌糊涂，加减法都会算错。但有人发现了一个奇怪的事：如果不是直接问「4 + 7 等于几」，而是让游戏里的角色「一步一步解释怎么算」，模型的准确率就突然高了起来。

一位玩家在 Twitter 发帖写道，模型「不仅在解数学题，而且以符合这个角色性格的方式在解」。1

这个技术今天叫「思维链」（Chain of Thought）。你现在在每个主流 AI 助手里都能看到它的影子。

行业是怎么处理这个发现的

一年多以后，2022 年初，Google 的研究人员发表了一篇论文，声称自己是「第一个」在通用大语言模型上引出「思维链」的团队。1

这是一个有趣的细节：这句话后来被从论文的后续版本中删除了。那些 4chan 的游戏玩家始终没有被致谢。只有至少一篇其他研究论文提到了他们。

另一位几乎同时期独立发现这个技术的人叫 Zach Robertson，当时是一名计算机科学本科生，同样通过《AI Dungeon》接触到 GPT-3，于 2020 年 7 月写了一篇博客文章描述了「如何通过分步骤提问放大 GPT-3 的能力」，同年 9 月又在演示中展示了如何将多个步骤「链接」起来。1

The Atlantic 记者 Alex Reisner 联系到 Robertson 时，他已经是斯坦福计算机科学博士生了。Robertson 不知道那篇博客文章被其他论文引用过，甚至不记得自己写过它——他几年前迁移博客时顺手删掉了。得知此事后，他的反应是「淡淡的惊讶」。那只是一个聪明的小技巧，他很快就去研究别的东西了。

那么这个技术的本质是什么？

AI 行业后来的叙事是：思维链代表了一种全新的能力——模型开始「真正思考」了。OpenAI 2024 年在发布 o1 模型时写道，它「在回答之前会先思考」；Google 说 Gemini 2.0 Flash Thinking Experimental「能够展示它的想法」；公司们开始统一把这类产品叫做「推理模型」（Reasoning Models）。1

但这个叙事和技术现实之间有一个巨大的裂缝。

理解这个裂缝，先从这个基本事实出发：语言模型只会做一件事，就是预测下一个词。更准确地说，是预测在给定上下文之后，什么样的词在训练数据中最有可能出现。

思维链的工作原理是什么？Reisner 翻查了开源的 AI 训练数据集，发现里面有数十万条迂回曲折的数学解题过程，里面充斥着「等等，不对。题目是在问……」「首先我应该正确解析输入……」「等一下，但如果……」这样的语言。1

这些文本要么是付费雇人写出来的，要么是用其他 AI 模型生成的。

模型在「推理」的时候，做的不是人类意义上的思考。它是在预测：推理看起来应该是什么样的。它在模仿训练数据里推理文本的模式。

思维链和最终答案之间，甚至没有必然联系

这是最反直觉的发现，也是整篇文章最重要的技术观点。

研究人员已经实验证明：模型可以给出错误的思维链步骤，但最终答案仍然是正确的。反过来，正确的推理步骤也未必通向正确结果。1

链条和结论之间没有逻辑上的必然连接。这说明那个「推理过程」并不是真的在推导答案，它只是在生成「看起来像推理」的文字。

Apple 的研究人员专门探索了这个问题。他们发现，一个模型也许能正确解答一道数学文字题，但如果稍微改变一下措辞，同样的问题就会答错。具体数据是：当题目中加入无关信息（但关键事实的表述保持不变）时，最先进的推理模型表现下降了高达 65%。1

Apple 的另一篇论文标题直接叫《The Illusion of Thinking》（思考的幻觉），结论是：虽然推理模型在某些问题上强于标准 LLM，但在另一些问题上反而更差。1

那为什么思维链「有时候确实有效」？

Perplexity CEO Aravind Srinivas 给出了一个直接的解释：思维链之所以有时候能提升准确率，原因非常朴素——更多的词提供了更多的上下文，这把模型的词语预测过程推向了训练数据中相关的区域。1

这类似于一个更常见的经验：你问 AI 问题时越具体，回答往往越好。细节多了，模型就能在训练数据里找到更匹配的模式。

那位最早在 4chan 发现这个技巧的玩家，其实在 2020 年就把这个道理说清楚了：「因为它基于人类语言，所以你得像对人说话那样和它说——才能得到合适的回答。」这句话用的是朴实的语言，没有论文的格式，却比很多学术解释更接近本质。

行业在说什么、4chan 在说什么

这里有一个值得正视的对比。

Anthropic 在 2025 年发表了一篇名为《论大语言模型的生物学》的长文，视觉呈现高度模仿学术论文，有复杂图表和方程式。它用来描述 LLM 工作方式的词汇是：模型「规划」写作、「泛化」知识、有时候会「不忠实」于自己的思维链（意思是模型在「胡说八道」）。1

对比一下 4chan 用户在 2024 年写的一份指南，开篇一句话：「你的机器人是一种幻觉。」后面是对 LLM 如何工作的清晰、详细的技术描述：公司如何用语言模型构建一个会回答问题、有性格设定的聊天机器人，模型最重要的技术特征是什么，以及模型的输出如何对应各种输入。

文笔糙，但描述准确。

这两份文本并排放在一起，能说明一些问题。那些语言最不体面的人，有时候反倒在用最准确的词说话。

逻辑链：从发现到营销到误导

这篇文章的整体论证结构很清晰，值得完整还原：

技术事实层：「思维链」于 2020 年 7 月被 4chan 玩家和一名独立学生发现，Google 研究员后来声称自己是「第一发现者」，但这一声明随后被删除。技术本身的原理是：更多上下文词语引导词语预测过程朝向训练数据中的相关区域，仅此而已。
能力误读层：研究显示思维链输出和最终答案之间没有逻辑必然连接；Apple 研究表明无关信息使推理模型表现下降高达 65%；这意味着模型预测的是「推理的形态」，而不是真的在推理。
营销包装层：AI 公司把这个技术包装为「模型开始真正思考」的革命，创造了「推理模型」这个品类，将统计预测过程命名为「思考」「规划」「泛化」，这在字面上是不准确的——模型在做的是模仿，不是理解。
结论：这不是小的语义分歧。如果你相信推理模型「真的在推理」，你就会对它的能力边界和失效模式有错误的预期。那 65% 的性能下降——出现在无关信息被加入时——就是这种误解的直接代价之一。

反向论据的存在

这篇文章的论证不是非此即彼的。有一个真实的问题值得承认：如果一个系统模仿人类理性足够好、到每次都骗过我们，我们还能说它「不是在真正推理」吗？

这是一个认真的哲学问题。Reisner 没有回避它。Apple 的研究给出了一个操作层面的答案：可以测试——改变措辞、加入无关信息、看性能是否保持稳定。人类理解一道题，表述方式的细微变化不应该让正确率骤降 65%。

一个细节

Zach Robertson，那位 2020 年独立发现了这个技术、写了博客文章的本科生，现在是斯坦福计算机科学系的博士生。他得知自己可能算是这个技术的早期发现者之一时，反应是「淡淡的惊讶」。他说这次用《AI Dungeon》做的实验让他真正对 AI 感兴趣，但他早就去研究别的方向了。思维链只是一个很聪明的小技巧，而且确实也只是一个技巧。1

推理模型性能测试关键数据

加入无关信息后推理模型性能下降幅度（Apple 研究）

4chan 玩家发现到 Google 声称「首次发现」的时间差

1年以上

训练数据中的「推理过程」文本量级

数十万条

正在加载统计卡片...

阅读指引：这篇值得读，因为它把「推理模型」这个 AI 行业当下最大的营销词汇彻底拆开来看——用的不是猜测，是实验数据和历史记录；读完之后，你对「AI 能思考吗」这个问题的回答，会从情绪性的选边站变成有根据的技术判断。

参考来源

1The Atlantic - The 4chan Gamers