2026/6/30 · 0:29

给 SAE 特征起名,能不能不靠事后猜?

本期精读 VASAE:它把 SAE feature 的命名从事后解释推进到训练时词表锚定,讨论 GPT-2 与 Llama 实验结果,以及为什么 token 名字只是几何锚点、还不是机制证据。

给 SAE 特征起名,能不能不靠事后猜?
0:008:17

节目导览

SAE 让我们把大模型残差流拆成稀疏特征,但这些 feature 到底叫什么,往往还要靠事后查看激活样本或自动解释来猜。本期精读 VASAE:它用词表嵌入作为训练时的几何锚点,让许多 SAE 字典方向拥有最近 token 名字,同时保留一个重要边界:token 名只是锚点,不是完整语义解释,也不是因果机制证据。
你会听到:VASAE-Soft 为什么不同于把 decoder 硬绑到词表矩阵上;GPT-2 与 Llama-3.1-8B 的对齐结果有什么层级差异;以及这条路线如何接上 SAE feature naming、自动解释和 circuit validation 的后续问题。

来源

関連コンテンツ

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。