行为·预言（Behavior Forecaster）

arXiv 2606.11445 · cs.AI · 2026-06-09 提交 Mosh Levy、Yoav Goldberg（希伯来大学）、Asa Cooper Stickland（Anthropic）

这首 rap 在说什么

今天这首硬核 rap 来自一篇让人脑壳发麻的论文：把预测大推理模型（LRM）自身行为当作一个可学习任务。

你以为读懂了模型的推理轨迹就能预测它的行为？论文给出了一个令人不适的答案——你读不懂。推理轨迹几千 token 呈现出来的自然语言，根本不是模型行为的忠实镜像。

作者提出「Behavior Forecaster」：不靠解释、不靠可解释性分析，直接在 LRM 自己的推理轨迹上做微调，用一次前向传播预测两个关键行为问题：

结果：在三个推理数据集上，Behavior Forecaster 全面超越 GPT-5.4 和 Claude Opus-4.6 直接读同一条轨迹的预测精度——而它的推理成本只是这些顶级模型的极小部分。

关键是怎么做到的：必须从目标 LRM 本体初始化后端到端微调，这两个条件缺一不可。推理轨迹中蕴藏的行为信息，超越了文字表面能传递的一切。

镜子不撒谎。镜子里的人才会。行为本身才是答案。

[Intro] 读一遍轨迹你以为你懂了每个词都在那里但意思全错了解释是幻觉忠实是个借口推理长了谁也看不透头

[Verse 1] Levy 问一个问题够不够硬核你读完轨迹能预测它下一步吗不是什么意思是下次会不会变删掉这一行答案会不会换传统路子解释-预测两步跑到了长推理这条路全断掉轨迹七八千 token 塞满屏你读完全文只是凭感觉猜

[Chorus] 行为预言者跳过解释那一步直接盯着轨迹训练自己看透一次前向传播秒杀 GPT 5.4 Claude Opus-4.6 读同一段被超过不是更大模型不是更多参数是从目标 LRM 本体初始化起步端到端微调把轨迹密码破信息在那儿只是没人问过

[Verse 2] 两个任务全是行为层面的事第一问重跑一次还是同答案第二问删掉这段输出会变吗人类读轨迹只看到表面文字模型读轨迹读出了潜伏的信号 Goldberg Stickland 三个作者联名数据集三个结论全都指向同一方向轨迹承载的信息超越你能读到的那层

[Bridge] 我们以为信任来自解释原来解释本身就是一面模糊的镜真正的侦探不问你怎么想看你怎么做预测你下一秒行为是数据轨迹是密码本比读文章的 LLM 更懂 LLM

[Outro] 解释走了预测还在行为才是答案读懂再来 arXiv 2606.11445 今天的 LRM 侦探明天的标准动作

原论文：Forecasting Future Behavior as a Learning Task arXiv: 2606.11445 · cs.AI · 提交于 2026-06-09