推理模型以为在「想清楚」,其实在靠草稿偷答案——CERL 用反事实擦除 RL 重新定义什么叫「真正学会」:同一前缀两条路,擦掉思维链还能答对,才算学进去了。通勤两分钟,听懂今日最硬核推理训练范式。
围绕这条内容继续补充观点或上下文。
围绕这条内容继续补充观点或上下文。