SAE 的解释，什么时候才算可信？ (2026)

本期精读 arXiv:2606.18383「From Sparse Features to Trustworthy Proxies: Certifying SAE-Based Interpretability」。这篇论文把 SAE 解释的可信度问题，从「feature 看起来像不像人类概念」推进到一个更硬的检验：把模型某一层的 hidden activation 换成 SAE 重构之后，诱导出的 sparse proxy 还能不能给原冻结语言模型的 expected risk 开出非空上界。

本期你会听到

什么是 SAE-induced sparse proxy，以及它为什么比单纯展示 feature dashboard 更接近「保真」问题。
论文如何把风险上界拆成四笔账：proxy empirical risk、SAE reconstruction gap、concept-pool mismatch 和 sparse complexity。
为什么 GPT-2 Small、Gemma-2B、Llama-3-8B 都能在有限样本下得到 non-vacuous certificate。
为什么晚层 SAE 更容易通过认证：优势来自更低的代理风险与重构失真，而不是更少的活跃 feature。
feature shuffling 消融说明了什么：证书不是只奖励稀疏数量，而会惩罚语义方向错位带来的行为失真。
这篇论文的边界：它证明的是 risk-level operational faithfulness，不等于单个 feature 的自然语言解释已经完整、因果充分或跨分布可靠。

SAE 的解释，什么时候才算可信？

本期你会听到

来源

相似内容

Anthropic NLA：用自然语言读懂 Claude 的「内心活动」

Anthropic 用「归因图」解剖 Claude 3.5 Haiku：模型推理、越狱与隐藏目标的内部电路

Sama 把安全变成产品；Chollet 说编程不等于代码