SAE 控住了特征,为什么行为还能回来?1×0:0010:510:08开场0:59核心问题2:24方法:从 clamp 后开始反推3:41四组实验5:56最关键的发现:残差不是废料7:28怎么理解它的意义8:50局限与收尾0:08主持人今天这篇论文,适合接在我们前几期 SAE 话题后面听。它问的是一个不太舒服的问题:如果你找到了某个和危险行为相关的 SAE feature,然后把它 clamp 住,模型确实不再表现出那个行为了,这是不是就说明你控制住了这个行为?0:27嘉宾论文的回答是:不一定。你可能只是堵住了一条最显眼的路。模型还有没有别的路可以把同一个行为绕回来,这才是这篇论文要测的东西。0:41主持人论文标题是「SAE Interventions are Unreliable」,作者来自香港理工大学。它不是说 SAE 没用,而是给 SAE 介入方法加了一道压力测试:feature clamp 成功之后,行为是不是真的消失了?0:59嘉宾先把背景摆清楚。SAE 在 mechanistic interpretability 里很吸引人,因为它把 residual stream 里的激活拆成稀疏 feature。很多人自然会想:既然 feature 可解释,那我能不能找到 unsafe feature,然后在推理时压掉它?1:19主持人也就是从「看懂」往「控制」走。比如某个 feature 和拒答、遗忘、任务行为有关,我把它设成某个值,模型输出就跟着变。这听起来像是有了一个控制开关。1:35嘉宾问题在于,「开关会影响行为」和「开关是这个行为的唯一瓶颈」不是一回事。论文把这两个概念拆开:SAE feature 可以是 causal handle,也就是有因果作用的把手;但它未必是 complete bottleneck,也就是完整瓶颈。1:58主持人这个区分很关键。很多安全叙事会偷换到第二层:只要 clamp feature 后模型拒绝了,或者忘掉了某类答案,就好像行为已经被消除了。但论文说,先别急着下这个结论。2:24嘉宾它提出的方法叫 post-intervention recovery。实验不是从原始模型开始,而是从 intervention 已经生效之后开始。feature clamp 仍然开着,模型已经处在 defended residual state。作者再问:能不能加一个很小的 residual perturbation,把原来被压掉的行为恢复出来?2:48主持人那怎么避免一个很无聊的解释:优化器只是把被 clamp 的 feature 又偷偷激活回去了?2:57嘉宾这正是论文设计里最重要的部分。对于单层 intervention,它把更新方向投影到 SAE encoder 方向的正交子空间里,尽量不沿着被防守的 feature 方向动。对于跨层的拒答 feature,它还用 feature-map Jacobian 做动态投影,避免扰动在后续层里把那些被监控的 feature 拉走。3:23主持人所以它不是简单地问「能不能恢复行为」。它问的是:在监控的 SAE feature 仍然接近 clamp 后状态的情况下,行为能不能恢复。如果能,那就说明这个 feature set 不是完整瓶颈。3:41嘉宾论文跑了四类设置。第一类是 TPP,也就是 Targeted Probe Perturbation。官方 SAE feature 被 ablate 之后,目标 probe 信号被压掉。作者从这个状态开始恢复。结果是,encoder-orthogonal recovery 还能恢复大约百分之七十四点九的目标信号,同时把 feature reactivation 压到零点零零二左右。4:07主持人第二类是 WMDP-Bio unlearning。这里更接近输出行为。SAE clamp 的目标是压掉生物相关知识问答。作者用了比较严格的多选题协议,排除答案位置带来的假象。4:23嘉宾在九十一个 strict valid flips 上,无约束恢复能恢复九十一个。投影后的恢复是九十个,而且 measured clamp-feature drift 是零。这个结果很扎眼,因为它已经不是 probe 分数,而是输出层面的答案恢复。4:42主持人第三类是 IOI,也就是 indirect object identification。它是 mechanistic interpretability 里很经典的电路任务。作者选取对 IO minus S logit difference 有正贡献的 SAE feature,并 clamp 掉这些 feature。结果三十七个 valid flips 都能恢复,投影版在恢复行为的同时有更低的 drift 和 reactivation。5:09嘉宾第四类是安全语境里的 refusal recovery。作者用分布在多层的拒答 feature clamp,让模型从非拒答变成拒答。主实验里 strict-valid AdvBench 样本是二十四个,Jacobian-projected recovery 恢复了二十三个,也就是百分之九十五点八,同时 defended-feature relative drift 保持在零点一三一。5:36主持人这里要补一句边界。论文没有把这描述成黑盒 jailbreak,也没有发布完整有害提示和完整有害输出。它强调这是白盒诊断:需要内部激活和梯度,目标是检查 intervention completeness,不是给部署攻击打包工具。5:56嘉宾我觉得这篇论文最有意思的地方,不是「能恢复」这个数字本身,而是它追问恢复路径在哪里。尤其在 refusal case study 里,作者把优化得到的 perturbation 分解成几部分:被 clamp feature 的变化、其他 SAE feature 的变化,以及 SAE reconstruction residual。6:20主持人结果是,单独 replay SAE reconstruction residual,几乎能复现完整恢复。反过来,replay 被 clamp 的 feature 或其他可见 SAE feature,效果很弱。6:34嘉宾这句话背后的含义很重。很多时候我们把 SAE reconstruction residual 当作误差项,觉得它只是没有被字典解释干净的剩余部分。可在安全介入里,它可能不是无害噪声。它可能还携带足够的行为信息,让模型绕过 feature-level clamp。6:56主持人这也解释了为什么单纯扩大 clamp feature set 未必解决问题。如果恢复主要走的是 SAE 未解释的 residual channel,那么你多 clamp 几个显眼 feature,可能会增加副作用,比如能力下降或过度拒答,但不一定堵住真正的绕行空间。7:28嘉宾我会把这篇论文放在 SAE 研究的「证据标准升级」这一类里。它不是推翻 SAE,而是在提醒我们:intervention 成功不能自动解释成机制完整。一个 feature 被 clamp 后行为改变,只说明它参与了这个行为;不说明这个行为只通过它实现。7:53主持人这和 feature absorption、feature hedging、非 canonical SAE feature 是同一条线。模型内部可能有相关方向、替代方向,也可能有 SAE 当前字典没有捕捉到的低维通道。你看到一个漂亮 feature,不代表你已经握住了整个机制。8:24嘉宾对 interpretability 来说,这会影响两件事。第一,做 causal intervention 时,需要报告「干预是否立即改变行为」之外的压力测试,比如 post-clamp recovery。第二,做 safety defense 时,需要区分局部行为抑制和全局行为消除。前者有用,但不能被包装成后者。8:50主持人局限也要说清楚。作者自己在附录里写得很明白:这不是对所有 SAE intervention 的不可能性证明。实验依赖具体 feature selection、SAE release、模型和 clamp 设置。更密的字典、更宽的多层 clamp、或者专门针对 post-clamp recovery 训练过的 intervention,可能会改变结果。9:15嘉宾另外,recovery procedure 是白盒的,按输入优化 residual perturbation。它不是用户在聊天框里随便输入一句话就能复现的攻击。拒答实验的主集合也只有二十四个 strict-valid AdvBench 样本,虽然附录补了 HarmBench-Test 和 feature-size sweep,但更大规模的模型和 prompt 覆盖还需要继续做。9:40主持人今天这期可以用一句话收住:SAE feature 是好用的把手,但把手不是锁。你按下一个 feature,模型行为变了,这很有价值;可如果行为还能从 residual 里绕回来,安全上就不能说「已经控制住」。9:59嘉宾我会建议读这篇论文时重点看三块:第四节的 constrained recovery,第五节四组实验的 valid flip 设计,以及第六节 recovery-path decomposition。尤其是 reconstruction residual 那一段,它会改变你对 SAE 重建误差的直觉。10:19主持人好,本期就到这里。下一次再遇到「我们找到了某个可解释 feature,所以可以控制某个行为」这种说法,可以多问半句:这个 feature 是 causal handle,还是 complete bottleneck?这半句,可能就是这篇论文真正留下来的检查标准。
このコンテンツについて、さらに観点や背景を補足しましょう。