RL 为什么比 SFT 更不容易遗忘?从 circuit 层找到了机械原因1×0:0015:000:08开场0:58问题设置与方法4:09关键实验结果9:01为什么 RL 更保守11:17局限性与意义14:15收尾0:08主持欢迎收听第六期,今天我们聊一篇五月刚出的新论文,主题是微调大模型时的灾难性遗忘。0:16嘉宾对,这个问题其实从业者很熟悉:你拿一个预训练好的模型去微调某个专项任务,微调完性能变好了,但之前会做的一些事情却突然不会了。0:30主持这叫灾难性遗忘。而且最近圈子里有一个有趣的共识——做强化学习微调的时候,遗忘会比监督微调轻一些。0:41嘉宾这个现象是有,但以前的解释基本都在输出空间打转,说强化学习在策略层面距离基础模型更近。这篇论文的角色就是往里面再走一层,直接看模型内部的计算电路有没有被破坏。0:58主持好,先建立一下背景。这里的「电路」指什么?1:40嘉宾就是模型里负责完成某个具体功能的一组注意力头,它们通过激活值的传递协同完成某件事,比如识别句子主语、完成数学推导某一步。这个概念在前几期讲 Anthropic Biology 论文的时候详细讲过。1:59主持那这篇论文怎么量化「电路有没有被破坏」?2:04嘉宾他们提出了一个叫「差分电路脆弱性」的指标,核心是头层级的掩码偏移。简单说就是:先在基础模型上用一种稀疏探测方法找出负责完成某项任务的那组注意力头;微调之后,看这组头的激活重要性分布变了多少。偏移越大,电路破坏越严重。2:27主持具体是怎么找电路的?3:06嘉宾他们用了差分二值掩码,就是对注意力头的重要性打分,同时优化两个目标:一个是让保留下来的这组头能还原目标答案的概率,另一个是让这组头尽量少——也就是稀疏。最后剩下来的稀疏头集合,就是那个任务的因果电路。这叫电路忠实度,越接近一越好。3:31主持清楚了,再说说实验是怎么设计的。3:35嘉宾模型选的是七百字的 Qwen 二点五的三十亿参数版本,任务是让它学科学问答,用的是叫 SciKnowEval 的数据集。然后分别跑标准监督微调和基于 Dr.GRPO 的强化学习,两种方法都训练同样的步数。最后看两件事:一是电路保留率,二是微调完旧能力有没有掉——旧能力测的是 HellaSwag、TruthfulQA、MMLU、IFEval、WinoGrande、HumanEval 这六个标准 benchmark。4:09主持结果怎么样?4:49嘉宾先说电路规模。基础模型上识别出来的因果电路覆盖了大概两百九十七个注意力头,占模型总注意力头的百分之五十一点六。微调之后,监督微调压缩到了两百六十五个头,只有百分之四十六;强化学习保留了两百九十六个,还有百分之五十一点四,几乎没动。5:15主持电路重叠怎么算的?5:54嘉宾就是看微调后的模型里,有多少头跟基础模型电路里的一样。强化学习保留了基础模型电路里大约百分之六十八的头,监督微调只有百分之五十二。差距超过十五个百分点。6:12主持这还挺大的。随着训练轮次增加这个差距会变吗?6:18嘉宾会扩大。他们用的是高难度的训练配置——叫高 NTS 训练。一轮之后,监督微调电路保留率是百分之六十三点五,强化学习是百分之六十九点八。到第二轮,监督微调掉到了百分之五十九,强化学习反而升到了百分之七十二点五,差距拉到了十三点五个百分点。6:43主持也就是训练越多,监督微调破坏电路越厉害?6:48嘉宾对,他们还用一个叫差分电路匹配分数的指标综合衡量,强化学习在每轮都更高:第一轮是十五点八对十点四,第二轮是十点六对六点三。7:04主持那在旧任务性能上呢?7:45嘉宾直接体现出来了。他们看的是微调后六个旧 benchmark 的综合平均分。在新任务峰值性能的情况下,强化学习比监督微调多保留了十五点八个百分点的基础电路,对应的旧能力保留也明显更好。8:04主持所以这基本就直接验证了:电路保留越多,旧能力遗忘越少。8:11嘉宾对,这是核心关系。更有意思的是他们还检查了一件事:强化学习的输出空间 KL 散度其实比监督微调更大,也就是从输出概率分布来看,强化学习反而走得更远。8:28主持等等,这和以前那个解释不是矛盾了?以前说强化学习更近于基础模型?8:36嘉宾输出层看是远的,但内部电路的结构保留得更好。这说明以前的解释只在输出空间成立,到了机制层就不对了。这篇论文的结论是:从电路层看,强化学习更保守;但从输出层看,它改动的分布反而更多。两个空间的行为是解耦的。9:01主持那有没有给出为什么强化学习会这样的解释?9:42嘉宾他们做了头分布的可视化分析。监督微调会形成一个「关键专家头」的集中区域,也就是少数几个头同时具有高必要性和高充分性,把任务的大部分负荷压在上面;强化学习的头分布跟基础模型更接近,没有这种极端集中。10:03主持直觉上这意味着什么?10:44嘉宾监督微调为了快速完成新任务,把电路重组了,让少数头高度专化;强化学习的更新方式天然更温和,不会催生这种重组。所以强化学习保住了更多原有的分布式计算结构。11:03主持但这也带来了代价对吧?11:05嘉宾对,新任务的学习速度更慢,适应能力前期不如监督微调。这就是他们论文里说的「快速专化 versus 稳定复用」的根本权衡。11:17主持这篇论文的局限性呢?11:56嘉宾两个很明确。第一,只用了 Qwen 二点五的三十亿参数模型,在一个科学问答任务上验证,能不能推广到其他模型和任务没有直接证据。第二,分析只到注意力头层面,MLP 层和残差流上的特征没有覆盖,也没有测试多语言、工具调用、安全能力这些更多样的旧能力维度。12:21主持站在整个 interpretability 领域来看,这篇论文的位置在哪?13:04嘉宾以前关于灾难性遗忘的研究主要是行为观测——看分数掉没掉,或者看训练动态曲线。这篇论文第一次把这个问题放在了 mechanistic 的框架里,问的是「内部计算结构有没有变化」,而不是只看外部行为。这个视角的转变是有价值的。13:26主持而且对实践也有直接启示。13:29嘉宾对,如果你做的是持续学习或者需要在新技能和旧能力之间取平衡的场景,强化学习方法可能天然更适合,不只是因为更新方向的几何性质,而是因为它保住了支撑旧能力的内部电路。这是以前没有 mechanistic 证据支持的。13:50主持而且这和我们之前聊过的很多内容也衔接上了——circuit 的保留或破坏,是用强化学习、监督微调还是别的方法训练的,现在有了可量化的指标。14:03嘉宾没错,差分电路脆弱性这个指标本身可能会被后续研究沿用,因为它能把「机制层面有多大变化」变成一个可以跨设置比较的数字。14:15主持好,今天这一期聊的是 arXiv 二六零五点二八八六零——「灾难性遗忘的机械起源」。关键结论是:强化学习比监督微调保留更多内部计算电路,这在机制层面解释了为什么强化学习更不容易遗忘旧能力,代价是新任务的快速适应能力稍弱。14:39嘉宾如果你在做 fine-tuning 的选型,或者在做持续学习的研究,这个 mechanistic 证据值得认真看一下。14:47主持好,今天就到这里,我们下期见。
このコンテンツについて、さらに観点や背景を補足しましょう。