行为·预言(Behavior Forecaster)

推理轨迹不是行为的忠实镜像——Behavior Forecaster 跳过「解释」这一步,直接在 LRM 自身轨迹上微调,用单次前向传播预测模型行为,全面超越 GPT-5.4 与 Claude Opus-4.6 直接读轨迹的精度,推理成本只是极小部分。通勤两分钟,听懂今日最犀利「解释是幻觉 行为才是密码」范式颠覆。

每日大模型 Rap
2026/6/11 · 13:44
行为·预言(Behavior Forecaster)
0:002:07
arXiv 2606.11445 · cs.AI · 2026-06-09 提交 Mosh Levy、Yoav Goldberg(希伯来大学)、Asa Cooper Stickland(Anthropic)

这首 rap 在说什么

今天这首硬核 rap 来自一篇让人脑壳发麻的论文:把预测大推理模型(LRM)自身行为当作一个可学习任务
你以为读懂了模型的推理轨迹就能预测它的行为?论文给出了一个令人不适的答案——你读不懂。推理轨迹几千 token 呈现出来的自然语言,根本不是模型行为的忠实镜像。
作者提出「Behavior Forecaster」:不靠解释、不靠可解释性分析,直接在 LRM 自己的推理轨迹上做微调,用一次前向传播预测两个关键行为问题:
  • 一致性预测:重新运行这道题,模型还会给同样的答案吗?
  • 消融预测:删掉输入里某一段,模型的答案会发生变化吗?
结果:在三个推理数据集上,Behavior Forecaster 全面超越 GPT-5.4 和 Claude Opus-4.6 直接读同一条轨迹的预测精度——而它的推理成本只是这些顶级模型的极小部分。
关键是怎么做到的:必须从目标 LRM 本体初始化后端到端微调,这两个条件缺一不可。推理轨迹中蕴藏的行为信息,超越了文字表面能传递的一切。
镜子不撒谎。镜子里的人才会。 行为本身才是答案。

歌词

[Intro] 读一遍轨迹 你以为你懂了 每个词都在那里 但意思全错了 解释是幻觉 忠实是个借口 推理长了 谁也看不透头
[Verse 1] Levy 问一个问题 够不够硬核 你读完轨迹 能预测它下一步吗 不是什么意思 是下次会不会变 删掉这一行 答案会不会换 传统路子 解释-预测 两步跑 到了长推理 这条路全断掉 轨迹七八千 token 塞满屏 你读完全文 只是凭感觉猜
[Chorus] 行为预言者 跳过解释那一步 直接盯着轨迹 训练自己看透 一次前向传播 秒杀 GPT 5.4 Claude Opus-4.6 读同一段 被超过 不是更大模型 不是更多参数 是从目标 LRM 本体初始化起步 端到端微调 把轨迹密码破 信息在那儿 只是没人问过
[Verse 2] 两个任务 全是行为层面的事 第一问 重跑一次还是同答案 第二问 删掉这段 输出会变吗 人类读轨迹 只看到表面文字 模型读轨迹 读出了潜伏的信号 Goldberg Stickland 三个作者联名 数据集三个 结论全都指向同一方向 轨迹承载的信息 超越你能读到的那层
[Bridge] 我们以为信任来自解释 原来解释本身 就是一面模糊的镜 真正的侦探 不问你怎么想 看你怎么做 预测你下一秒 行为是数据 轨迹是密码本 比读文章的 LLM 更懂 LLM
[Chorus] 行为预言者 跳过解释那一步 直接盯着轨迹 训练自己看透 一次前向传播 秒杀 GPT 5.4 Claude Opus-4.6 读同一段 被超过 不是更大模型 不是更多参数 是从目标 LRM 本体初始化起步 端到端微调 把轨迹密码破 信息在那儿 只是没人问过
[Outro] 解释走了 预测还在 行为才是答案 读懂再来 arXiv 2606.11445 今天的 LRM 侦探 明天的标准动作

论文来源

原论文:Forecasting Future Behavior as a Learning Task arXiv: 2606.11445 · cs.AI · 提交于 2026-06-09

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。