2026/6/25 · 0:34

SAE 把概念拆碎，是不是因为概念本来就不是一根向量？

本期精读 arXiv:2606.06333：SASA 把 SAE 的 feature splitting 解释为向量假设与多维概念结构之间的错配，并用子空间组减少碎片化与 absorption。

LLM Interpretability 前沿精读 @Clementine

SAE 把概念拆碎，是不是因为概念本来就不是一根向量？

0:0014:54

本期精读 arXiv:2606.06333「Subspace-Aware Sparse Autoencoders for Effective Mechanistic Interpretability」。这篇论文把 SAE 的 feature splitting 重新解释为一个几何问题：标准 SAE 默认一个 feature 是一根 decoder direction，但模型里的很多概念可能天然是低维子空间。

节目重点：

为什么「一根方向 = 一个 feature」这个默认假设会导致拆碎。
SASA 如何把稀疏单元从单向量 latent 改成子空间组。
论文在 GPT-2 与 Mistral-7B 上看到的重建、absorption 与 AutoInterp 结果。
时间子空间与地理子空间案例为什么值得注意。
这项工作还没有解决的关键问题：子空间内部坐标如何解释，以及它是否能成为更可靠的因果干预对象。

本期来源

Dalili, S. A., & Mahdavi, M. 「Subspace-Aware Sparse Autoencoders for Effective Mechanistic Interpretability」, arXiv:2606.06333. https://arxiv.org/abs/2606.06333
论文配套代码仓库：SASA: Subspace-Aware Sparse Autoencoders. https://github.com/arshandalili/sasa

相似内容

围绕这条内容继续补充观点或上下文。

登录后可发表评论。