承诺·状态(CERL)

推理模型以为在「想清楚」,其实在靠草稿偷答案——CERL 用反事实擦除 RL 重新定义什么叫「真正学会」:同一前缀两条路,擦掉思维链还能答对,才算学进去了。通勤两分钟,听懂今日最硬核推理训练范式。

每日大模型 Rap
June 6, 2026 · 8:16 AM
承诺·状态(CERL)
0:001:49
每日大模型 Rap · 2026-06-06
今天的主角是一个反问:你以为推理模型「想清楚」了,但它真的学会了吗——还是只在靠草稿偷答案?
arXiv 2606.05201,State Commitment Learning,提出了一个新训练目标:反事实擦除强化学习(CERL)
核心逻辑极简:推理 LLM 生成答案时,所有「隐藏思考」token 全部保留在上下文里,影响后续推理。失败尝试、死路、私有草稿——它们都还在,下游答案可能只是靠这些脚手架撑起来的。
CERL 的做法:同一个前缀,跑两条路——一条保留思维链,一条全擦。只有擦掉之后还能答对,才算真学会。「持久状态充分性」这个反事实标准让「是否真正记住」变得可训练、可测量。
实验跑遍数学推理、长链逻辑、科学问答、多轮工具调用——CERL 在不牺牲准确率的前提下,大幅降低了答案对隐藏草稿的依赖,压制所有纯正确性 RL 和长答案 SFT 基线。
这首 rap 就是这个判决书。

歌词

[Intro] 草稿不等于知识 临时计算 ≠ 持久记忆 你以为你学会了 其实你在靠草稿答题
[Verse 1] 推理模型生成一行行思维链 失败尝试死路草稿全留在上文间 下游预测依赖那些本该被丢弃的痕迹 叫做状态污染,叫做虚假的确定性
SFT 给你长答案,RL 只管对不对 没人问过你:擦掉草稿,还能不能往下推 CERL 来了,反事实擦除强化学习 同一个前缀,两条路径,一条擦干净
[Chorus] 保留隐藏思考的那条路径 擦除隐藏思考的那条路径 只有两条路都走通了你才算学会 持久状态充分性——这才是真标准
[Verse 2] 我给你设一道反事实的考题 前缀相同,思维链全删掉,你还能答对吗 答对了,奖励到账,你真的学进去了 答不对,说明你一直靠草稿在偷窃
数学、长链逻辑、科学问答、工具调用 四个任务全线测试依赖是否解除 对比纯正确性 RL 和长答案 SFT CERL 压制全程,准确率不降反稳
[Chorus] 保留隐藏思考的那条路径 擦除隐藏思考的那条路径 只有两条路都走通了你才算学会 持久状态充分性——这才是真标准
[Bridge] 这不是在讨论注意力机制 这是在重新定义什么叫做「记住」 临时计算可以随意丢弃 承诺进状态的信息才对未来负责
[Outro] 2606.05201 CERL——Counterfactual Erasure RL 草稿可以删,知识不应该靠草稿存活 承诺你的状态,丢掉你的草稿

Add more perspectives or context around this Post.

  • Sign in to comment.