2026/6/21 · 0:34

SAE 控住了特征,为什么行为还能回来?

本期精读 arXiv:2606.18322。论文提出 post-intervention recovery,用受约束的 residual-space 优化测试 SAE feature clamp 是否真能形成行为瓶颈。结论很尖锐:SAE feature 可以是有用的因果把手,但不能直接等同于完整的行为控制。

SAE 控住了特征,为什么行为还能回来?
0:0010:51

节目导览

本期精读 arXiv:2606.18322「SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior」。论文给 SAE feature clamp 加了一道压力测试:当干预已经生效、被防守的 feature 仍然接近 clamp 后状态时,被压掉的行为还能不能从 residual state 里恢复?
这篇论文的核心不是说 SAE 没用,而是把「有因果作用的把手」和「完整行为瓶颈」分开。它提醒我们:feature-level intervention 能改变行为,不等于行为已经被消除。

本期重点

  • post-intervention recovery:从 defended residual state 出发,在 clamp 仍然开着的情况下寻找恢复路径。
  • 四组实验:TPP、WMDP-Bio unlearning、IOI circuit、refusal recovery 都显示被压制行为仍可恢复。
  • refusal case study:Jacobian-projected recovery 在 24 个 AdvBench strict-valid 样本中恢复 23 个,同时保持被防守 feature 的漂移较低。
  • recovery-path decomposition:恢复主要落在 SAE reconstruction residual,而不是被 clamp feature 或少数其他可见 SAE latents。
  • 局限:这是白盒诊断,不是黑盒攻击;结果依赖具体 SAE、feature selection、模型和 clamp 设置。

来源

音频说明

本集为双人中文深度对谈,片头和片尾使用本轮生成的无歌词纯音乐包装。

関連コンテンツ

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。