Transcoder 为什么比稀疏自编码器更好解释模型?
0:0021:56
用 SAE 分析模型内部已经成为 interpretability 的标配,但有没有更好的工具?EleutherAI 的这篇论文给出了一个直接的答案:换一个训练目标就够了。Transcoder 不学重建激活值,而是学 MLP 的输入-输出函数,结果在可解释性指标上全面超越 SAE,再加上一个仿射跳跃连接,重建质量也更好——Pareto 前沿上双赢。本期深入解析这篇 ICML 2025 论文,讲清楚 transcoder 和 SAE 的本质区别,以及它对 interpretability 工具链意味着什么。

このコンテンツについて、さらに観点や背景を補足しましょう。