几百万个 SAE 特征,真的能拿来用吗?1×0:008:030:08开场:这不是又一篇 SAE 小技巧1:18一:为什么「覆盖位置」本身很重要2:40二:层的位置不是随便选的4:10三:拒绝 steering 是演示,不是安全按钮5:48四:它和 Gemma Scope 那类资源有什么不同6:42收尾:从漂亮 feature 到公共底座0:08主播如果你最近一直在追 sparse autoencoder,可能会有一点疲劳:又是 feature,又是 steering,又是解释性评估。可是今天这篇,据 arXiv 六月二十五日论文「Discovering Millions of Interpretable Features with Sparse Autoencoders」,重点不只是新技巧,而是一个更基础的问题:SAE 能不能成为研究基础设施?0:33嘉宾这篇来自阿里 AI DATA 和北京理工大学,发布的是 Qwen3-Instruct SAE。可以把它想成给 Qwen3 指令模型族配了一批「显微镜镜片」:Qwen3 一点七 B、四 B、八 B 都覆盖到;其中一点七 B 和四 B,在每一层的 residual stream、MLP 输出、attention 输出三个位置都训练了 SAE。1:00主播所以它和单点机制论文不太一样。很多 SAE 工作问的是:这个 feature 到底代表什么?这个 steering 能不能改行为?今天先退一步:如果没有一套足够完整的公开 SAE 字典,很多后续问题根本没法系统比较。1:18嘉宾先说三个位置。residual stream 像层与层之间传递的主干信息流;MLP 输出常被认为更接近概念和事实的变换;attention 输出则带着 token 之间的上下文路由。论文把这三个位置分开训练 SAE,等于允许我们比较:同一个模型里,哪些地方更容易被稀疏分解,哪些地方一动就影响行为。1:46主播评估也围绕这个问题展开。论文主要看两个指标:一个是 delta LM loss,也就是把原激活替换成 SAE 重构激活后,模型语言建模损失变坏多少;另一个是 FVE,看 SAE 在激活层面解释了多少方差。前者更接近「模型还能不能正常工作」,后者更接近「数学上重构得像不像」。2:14嘉宾结果很有提醒意义:FVE 整体看起来不错,不代表 delta LM loss 也一定小。Qwen3 一点七 B 上,residual stream 和 MLP 的 SAE 通常比 attention 输出更能恢复原模型表现。attention 像交通调度系统,误差不一定大,但它可能正好打到 token 之间的信息路由, downstream 行为就会放大。2:40主播论文还观察到一个层级形状:前两层比较容易恢复,二到四层恢复明显变差,后面五到二十七层又逐渐改善。作者把它解释为一种阶段性计算现象:早层偏局部特征,中间几层混合更强,深层表示又变得更稳定、更任务相关。3:00嘉宾这对 interpretability 的启发是,选层不是技术细节,而是实验条件。一个 SAE 在某层表现差,不一定说明 SAE 方法失败,也可能说明那一层处在高混合的过渡区。反过来,如果你只在最顺手的层上找 feature,也可能高估了方法的普适性。3:24主播还有字典大小。论文比较了十六 K 和六十五 K 字典,以及不同 L0 稀疏度。直觉上字典越大,feature 越多,解释应该越细;但在 attention 输出上,同样 L0 下,六十五 K 字典有时反而更不稳定。3:43嘉宾作者给出的解释是 feature splitting 和 feature absorption。白话说,显微镜倍数开得太高,确实能看到更多纹理,但也可能把一个本来连续的结构切碎,最后不知道哪个碎片才重要。所以后续研究选 SAE,不能只看 feature 数量多,还要看它在目标层、目标位置、目标稀疏度下对模型行为的扰动。4:10主播论文最后做了一个 refusal steering case study。据论文描述,作者先用有害请求和拒绝回答构造样例,在目标层提取 assistant token 的激活,再经过 SAE 找出高频、高强度激活的候选拒绝 feature。Qwen3 一点七 B 用第十八层 feature 一零六六一;Qwen3 四 B 用第十九层 feature 六八四八。4:37嘉宾然后他们沿着这个 SAE decoder direction 干预 residual stream。评测用了 XSTest、WildGuard 和一个混合数据集。结果是,在 unsafe prompts 上,目标 feature steering 明显提高拒绝率。比如 Qwen3 四 B 在 XSTest unsafe 上达到零点九五,在混合数据集 unsafe 上达到零点九三。5:05主播但这不是「找到安全按钮」的故事。因为 safe prompts 上拒绝率也会上升,比如 Qwen3 四 B 在 XSTest safe 上从零点零三二涨到零点五一六。它确实把模型往「拒绝」方向推了,但没有自动学会区分该拒绝和不该拒绝。WildGuard 上的迁移也弱一些,论文自己把这列为局限。5:31嘉宾所以这个实验更像是在证明:这些 SAE feature 不是只能拿来看,也能作为行为干预坐标;但要把它变成可靠控制,还需要更细的选择、更好的泛化测试,以及对副作用的约束。5:48主播这里还要把它放进更长的资源谱系里看。论文自己也把 Gemma Scope、LlamaScope、Qwen-Scope 放进背景里。它的价值不是宣称「第一个 SAE 资源」,而是把 Qwen3 指令模型族放进这个可比较的生态里,让研究者不必只在某一个模型家族上观察 superposition、feature splitting 或 steering。6:12嘉宾这点很关键。mechanistic interpretability 如果只靠单个模型上的漂亮案例,很容易不知道结论是模型特有、数据特有,还是方法真的抓到了通用机制。Qwen3-Instruct SAE 的意义,是提供另一个足够大、足够系统的坐标系。以后如果一个 refusal feature、事实 feature、或者推理 feature 在多个模型族里都呈现相似结构,解释的可信度才会明显提高。6:42主播如果概括这篇的贡献,我会说三点。第一,它把 Qwen3 指令模型族上的 SAE 资源规模化。第二,它提醒我们,激活重构和模型行为恢复不是同一件事。第三,它用 refusal steering 说明,feature 可以成为因果干预入口,但不是现成的安全开关。7:05嘉宾我会补一个期待和一个谨慎。期待是,等代码和权重真正 release,社区可以用它做跨层、跨组件、跨模型的比较;谨慎是,更多 feature、更高 FVE、更强 steering,都不能自动等于更可信的机制解释。真正的解释,还是要在模型行为、因果干预和跨情境泛化之间闭环。7:33主播本期精读的是 arXiv 论文「Discovering Millions of Interpretable Features with Sparse Autoencoders」。下次再看到一个 SAE feature,我们可以多问一句:它来自哪一层、哪一个组件、哪种稀疏度;它只是重构得好,还是让模型真的保持了原来的行为。
Añade más opiniones o contexto en torno a este contenido.