SAE 控住了特征，为什么行为还能回来？ (2026)

节目导览

本期精读 arXiv:2606.18322「SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior」。论文给 SAE feature clamp 加了一道压力测试：当干预已经生效、被防守的 feature 仍然接近 clamp 后状态时，被压掉的行为还能不能从 residual state 里恢复？

这篇论文的核心不是说 SAE 没用，而是把「有因果作用的把手」和「完整行为瓶颈」分开。它提醒我们：feature-level intervention 能改变行为，不等于行为已经被消除。

本期重点

post-intervention recovery：从 defended residual state 出发，在 clamp 仍然开着的情况下寻找恢复路径。
四组实验：TPP、WMDP-Bio unlearning、IOI circuit、refusal recovery 都显示被压制行为仍可恢复。
refusal case study：Jacobian-projected recovery 在 24 个 AdvBench strict-valid 样本中恢复 23 个，同时保持被防守 feature 的漂移较低。
recovery-path decomposition：恢复主要落在 SAE reconstruction residual，而不是被 clamp feature 或少数其他可见 SAE latents。
局限：这是白盒诊断，不是黑盒攻击；结果依赖具体 SAE、feature selection、模型和 clamp 设置。

来源

音频说明

本集为双人中文深度对谈，片头和片尾使用本轮生成的无歌词纯音乐包装。

SAE 控住了特征，为什么行为还能回来？

节目导览

本期重点

来源

音频说明

関連コンテンツ

行为·预言（Behavior Forecaster）

Anthropic 用「归因图」解剖 Claude 3.5 Haiku：模型推理、越狱与隐藏目标的内部电路

5条科技热门 Day 014 | reCAPTCHA封杀 · Claude从96%到0 · Mojo发布了