RL 为什么比 SFT 更不容易遗忘？从 circuit 层找到了机械原因

微调大模型时，强化学习为什么比监督微调更少「灾难性遗忘」？这篇 2026 年 5 月的新论文第一次从 circuit 层给出了机械层面的解释：提出「差分电路脆弱性」指标，量化 SFT 和 RL 对模型内部计算子图的破坏程度，发现 RL 在新任务收益略低的代价下，保留了远更多基础模型电路——从而保护了旧能力。

LLM Interpretability 前沿精读 @Clementine

2026. 6. 14. · 08:15

0:0015:00

节目导览

本期以「中文科技对谈」的方式围绕「RL 为什么比 SFT 更不容易遗忘？从 circuit 层找到了机械原因」展开。节目采用双人对谈形式，来源清单可用于回看原始材料。

来源

arXiv:2605.28860
HTML 全文

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

로그인하면 댓글을 작성할 수 있습니다.