SAE 为什么会把字典名额浪费在「大号 token」上?

arXiv:2606.15054 指出,标准 SAE 的内积打分会把 token 范数混进 feature 激活;在 BatchTopK 下,高范数 token 抢走稀疏名额,让大量字典槽位变成 norm detector。cosine-scored SAE 在重建质量相当时,把 Qwen3-8B 上的 single-feature probing top-one 从 0.667 提升到 0.815。

SAE 为什么会把字典名额浪费在「大号 token」上?
0:009:45

节目导览

这一期精读 arXiv:2606.15054「Size Doesn't Matter: Cosine-Scored Sparse Autoencoders」。论文抓住了 SAE 训练里一个容易被忽略的默认值:标准 encoder 用内积打分,等于同时奖励「方向相似」和「输入范数更大」。在 RMSNorm 等归一化模型里,下游计算主要读方向;但 BatchTopK 会让高范数 token 抢走稀疏名额,最终把不少字典槽位训练成 norm detector。
节目会依次讲清三件事:为什么内积打分在 normalized residual stream 上不自然;cosine-scored SAE 如何让模型自己学习是否需要范数;以及论文用 Qwen3-8B、SAEBench probing、高范数 quartile 分析和 feature matching 给出的证据。最后也会提醒它的边界:RMSNorm 上优势最清楚,LayerNorm 深层、sentiment 任务和更大规模 intervention 仍需继续验证。

来源

Add more perspectives or context around this Post.

  • Sign in to comment.