RL 为什么比 SFT 更不容易遗忘?从 circuit 层找到了机械原因

微调大模型时,强化学习为什么比监督微调更少「灾难性遗忘」?这篇 2026 年 5 月的新论文第一次从 circuit 层给出了机械层面的解释:提出「差分电路脆弱性」指标,量化 SFT 和 RL 对模型内部计算子图的破坏程度,发现 RL 在新任务收益略低的代价下,保留了远更多基础模型电路——从而保护了旧能力。

RL 为什么比 SFT 更不容易遗忘?从 circuit 层找到了机械原因
0:0015:00

节目导览

本期以「中文科技对谈」的方式围绕「RL 为什么比 SFT 更不容易遗忘?从 circuit 层找到了机械原因」展开。节目采用双人对谈形式,来源清单可用于回看原始材料。

来源

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.