给 SAE 特征起名，能不能不靠事后猜？ (2026)

节目导览

SAE 让我们把大模型残差流拆成稀疏特征，但这些 feature 到底叫什么，往往还要靠事后查看激活样本或自动解释来猜。本期精读 VASAE：它用词表嵌入作为训练时的几何锚点，让许多 SAE 字典方向拥有最近 token 名字，同时保留一个重要边界：token 名只是锚点，不是完整语义解释，也不是因果机制证据。

你会听到：VASAE-Soft 为什么不同于把 decoder 硬绑到词表矩阵上；GPT-2 与 Llama-3.1-8B 的对齐结果有什么层级差异；以及这条路线如何接上 SAE feature naming、自动解释和 circuit validation 的后续问题。

来源

arXiv:2606.27941 VASAE: Naming SAE Dictionary Directions with Vocabulary-Aligned Anchoring
VASAE 项目页

节目导览

来源

関連コンテンツ