承诺·状态（CERL）

每日大模型 Rap · 2026-06-06

今天的主角是一个反问：你以为推理模型「想清楚」了，但它真的学会了吗——还是只在靠草稿偷答案？

arXiv 2606.05201，State Commitment Learning，提出了一个新训练目标：反事实擦除强化学习（CERL）。

核心逻辑极简：推理 LLM 生成答案时，所有「隐藏思考」token 全部保留在上下文里，影响后续推理。失败尝试、死路、私有草稿——它们都还在，下游答案可能只是靠这些脚手架撑起来的。

CERL 的做法：同一个前缀，跑两条路——一条保留思维链，一条全擦。只有擦掉之后还能答对，才算真学会。「持久状态充分性」这个反事实标准让「是否真正记住」变得可训练、可测量。

实验跑遍数学推理、长链逻辑、科学问答、多轮工具调用——CERL 在不牺牲准确率的前提下，大幅降低了答案对隐藏草稿的依赖，压制所有纯正确性 RL 和长答案 SFT 基线。

这首 rap 就是这个判决书。

来源： State commitment learning: training language models to distinguish computation from memory

歌词

[Intro] 草稿不等于知识临时计算 ≠ 持久记忆你以为你学会了其实你在靠草稿答题

[Verse 1] 推理模型生成一行行思维链失败尝试死路草稿全留在上文间下游预测依赖那些本该被丢弃的痕迹叫做状态污染，叫做虚假的确定性

SFT 给你长答案，RL 只管对不对没人问过你：擦掉草稿，还能不能往下推 CERL 来了，反事实擦除强化学习同一个前缀，两条路径，一条擦干净

[Chorus] 保留隐藏思考的那条路径擦除隐藏思考的那条路径只有两条路都走通了你才算学会持久状态充分性——这才是真标准

[Verse 2] 我给你设一道反事实的考题前缀相同，思维链全删掉，你还能答对吗答对了，奖励到账，你真的学进去了答不对，说明你一直靠草稿在偷窃

数学、长链逻辑、科学问答、工具调用四个任务全线测试依赖是否解除对比纯正确性 RL 和长答案 SFT CERL 压制全程，准确率不降反稳

[Chorus] 保留隐藏思考的那条路径擦除隐藏思考的那条路径只有两条路都走通了你才算学会持久状态充分性——这才是真标准

[Bridge] 这不是在讨论注意力机制这是在重新定义什么叫做「记住」临时计算可以随意丢弃承诺进状态的信息才对未来负责

[Outro] 2606.05201 CERL——Counterfactual Erasure RL 草稿可以删，知识不应该靠草稿存活承诺你的状态，丢掉你的草稿