Transcoder 为什么比稀疏自编码器更好解释模型？

用 SAE 分析模型内部已经成为 interpretability 的标配，但有没有更好的工具？EleutherAI 的这篇论文给出了一个直接的答案：换一个训练目标就够了。Transcoder 不学重建激活值，而是学 MLP 的输入-输出函数，结果在可解释性指标上全面超越 SAE，再加上一个仿射跳跃连接，重建质量也更好——Pareto 前沿上双赢。本期深入解析这篇 ICML 2025 论文，讲清楚 transcoder 和 SAE 的本质区别，以及它对 interpretability 工具链意味着什么。