模型遇到错别字,为什么会突然想太多?1×0:0012:210:00开场:一个小错别字,为什么会变成内部混乱1:19方法:SAE 不只解释概念,也可以测量偏离程度3:14结果一:模型知道有错,却仍然会掉性能4:35结果二:energy score 可以帮你挑更有价值的微调样本6:09结果三:越狱提示像是在制造内部迷彩8:29结果四:语音转写噪声也能用同一机制修正9:41意义与局限:从单个 feature,转向内部流形诊断11:33收尾:把 OOD 变成模型内部事件0:00主播今天这篇论文的入口很反直觉:不是问模型会不会看懂错别字,而是问,模型在看见错别字的时候,内部到底多想了什么。论文标题是 At the Edge of Understanding,六月二十四日提交到 arXiv。作者把稀疏自编码器当成一台显微镜,去看语言模型什么时候离开了自己熟悉的表示流形。0:23嘉宾对,论文的核心说法很直接:一些输入表面上只是轻微变形,比如单词里有错别字、语音转写里有噪声、或者提示词被改写成越狱风格,但在模型内部,它们不只是「脏输入」。它们会让模型激活更多额外的、离题的概念。作者把这些叫作 off-manifold 或者 spurious concepts,也就是模型为了编码这个异常输入,多招募出来的一堆概念。0:58主播这听起来像是把「鲁棒性」问题翻译成了 mechanistic interpretability 的语言。以前我们看到的是外部现象:准确率掉了、拒绝失败了、问答答错了。这里作者试图说,掉下去之前,模型内部已经出现了可测量的异常。1:19嘉宾论文的做法是看 transformer 的 residual stream,也就是每一层之后承载信息流的向量。然后用 SAE 把这些高维激活分解成稀疏特征。传统上,我们会问某个 SAE feature 是不是可以解释成一个概念。这里的重心稍微变了:作者不依赖单个 feature 必须稳定可解释,而是看全局几何。一个输入如果需要更多 SAE 特征才能重建,或者重建误差更高,就说明它在模型看来更不像训练分布里的东西。1:54主播所以这篇论文里最重要的测量,是他们定义的 energy score。它把两类信号加起来:第一,SAE 重建残差有多大;第二,激活的特征有多「稀有」以及有多少。直觉上,一个正常句子可以用少量常见概念编码;一个怪句子会迫使模型用更多、不常见的概念去凑解释。2:20嘉宾是的。作者先在一个干净的玩具环境里验证这个想法。他们训练了一个八层、二千五百万参数的 GPT 二变体,只在 TinyStories 上训练,并且用字符级分词。然后他们给验证集句子逐步加入错别字。这个设计的好处是,错别字对这个模型来说真的很陌生,不容易被「大模型也许见过一切」这件事干扰。2:47主播论文报告的结果很整齐:随着错别字比例上升,模型在第六层 residual stream 里会激活更多 SAE 特征。从完全干净的输入,到每个词都有一个字符错误,平均需要的特征数接近增加三成。换句话说,模型不是把错别字简单忽略掉,而是在内部生成了更多解释负担。3:14嘉宾更有意思的是,他们把这个实验搬到更真实的评测上。论文在 MMLU 问题里只给问题文本加错别字,不改系统提示,也不改 few-shot 模板。Llama 三点一八十亿参数模型的平均准确率,论文报告从百分之六十六点七,掉到百分之五十一点零一,只需要百分之五的词被加入单字符错别字。3:40主播这个数字挺扎眼的,因为百分之五听起来非常少。对人来说,几乎就是扫一眼能纠正的噪声。3:48嘉宾而且论文还报告了闭源模型的对照。GPT 四 o mini 从百分之八十二点一零掉到百分之七十四点八十五。一个推理模型 GPT 五 thinking nano,也从百分之九十一点二六掉到百分之八十六点四五。作者特别指出,推理轨迹里经常能看出模型发现了错别字,但发现不等于完全免疫。也就是说,表层上「我看见有错」和内部表示是否已经被扰动,是两回事。4:19主播这给鲁棒性评测补了一个机制层解释。不是所有错误都来自模型没读懂文本;有些错误更像是,模型为了读懂异常文本,激活了太多旁支概念,于是主任务被稀释了。4:35嘉宾下一步,作者问一个很实际的问题:如果这些 energy score 真能衡量模型内部的分布偏移,那它能不能指导训练?他们把带错别字的数据按 energy score 分成十个分位,然后分别用不同分位的数据去微调那个 GPT 二玩具模型。结果是,高 energy 的样本更有用。4:57主播论文给的一个关键结果是,用第六层 residual stream 计算 energy score 时,拿高于第七十分位的样本微调,最终验证损失比最低十分位的样本低超过百分之三,而且达到相近损失所需的训练步数大约只有后者的三分之二。5:18嘉宾这里的含义不是「越怪越好」这么简单。论文也提到,中间层有时候会出现 U 形关系,不同层对不同强度的偏移更敏感。更稳妥的理解是,SAE 给了我们一个以模型内部状态为依据的样本选择信号。它不同于传统的熵、Mahalanobis 距离这些外部或统计指标;论文报告,在同一组百分之二十错别字样本里,energy score 和这些传统指标的相关性绝对值小于零点零九,而且用 energy score 选样本,微调后的 loss 在各个分位上都更低。5:54主播这就把 SAE 从解释工具往训练工具推了一步。过去我们常说 SAE 可以看见 feature;这里它更像是在告诉你,哪些输入对模型来说真的处在边界上,值得拿来补课。6:09嘉宾论文最有安全意味的一段,是越狱实验。作者取了 WildJailbreak 数据集里的九千九百三十八条提示,在 Llama 三点一八十亿参数上判断哪些越狱成功,哪些被拒绝。然后他们用第十九层 residual stream 的 SAE 来比较这两类提示。6:32主播论文报告,在最后一个提示 token 的激活上,成功越狱会激活更多和越狱成功高度相关的 SAE 概念。具体来说,作者取最相关的一百个特征,平均每个成功越狱包含十点二个这样的额外概念,不成功越狱只有五点三个左右。6:54嘉宾作者用了一个很形象但也需要谨慎理解的解释:这些额外概念像是 camouflaging,也就是迷彩。它们不一定是「坏概念」本身,而是让模型的拒绝机制被大量旁支信号分散了注意。于是同样是有害请求,成功越狱的内部表示更偏离安全训练时的正常区域。7:18主播更关键的是,作者不只是检测。它们训练了一个 SAE-informed LoRA:目标不是重新教模型安全政策,而是把成功越狱提示的 SAE feature strength,往不成功越狱提示的平均激活分布拉。LoRA 只加在第十九层之前的注意力投影矩阵上。7:39嘉宾结果很强。论文报告,原本成功的越狱里,百分之九十点三九在微调后变成不成功;图里也把成功率概括为从百分之四十六降到百分之七。对比一个输入侧分类器 Llama Prompt Guard 二,在同一批对抗样本里只能标出百分之四十八点三。更重要的是,MMLU 总体准确率只下降百分之零点零九,OR-BENCH 上过度拒绝率还从百分之三点五略降到百分之三点零。8:12主播这说明它不是简单把模型调得更爱拒绝,而是更像在处理一类内部偏移模式。当然,论文也提醒,这种方法本身也可能被正用或反用,所以安全评估和红队测试不能省。8:29嘉宾为了证明它不只是安全场景里的特殊技巧,作者还做了 Spoken-SQuAD。这个数据集来自 SQuAD 的语音转写版本,里面有 ASR 噪声,比如音近错词、切词错误和语法碎片。作者把干净 SQuAD 当作 in-distribution,把 Spoken-SQuAD 当作 OOD,用五千个配对样本训练同样思路的 LoRA。8:54主播论文报告,Llama 三点一八十亿参数在 ASR 转写文本上的 exact match,从百分之四十九点四五升到百分之五十八点三三,几乎追近原始干净文本上的表现。更意外的是,干净 SQuAD 上也从百分之五十九点九七升到百分之六十七点八八。9:16嘉宾这部分要小心,不要过度解读成「SAE-LoRA 总是提升一切」。更保守的说法是,至少在这个设置里,把噪声文本的内部激活拉向干净文本的中心,不只修复了 OOD 场景,也没有牺牲干净场景。它让这篇论文的主张更完整:同一个内部偏移框架,可以接到安全,也可以接到能力鲁棒性。9:41主播这篇论文对 interpretability 的意义,我觉得在于它没有停在「这个 feature 叫什么」上。它把 SAE 用成一个流形诊断器:模型现在处理这个输入时,离自己熟悉的内部计算区域有多远?9:59嘉宾对,这对 mechanistic interpretability 很重要。因为 SAE feature 本身可能不稳定,不同初始化不一定学出同一组原子概念。论文也承认这一点。但他们依赖的是全局重建误差、L 零激活量和整体能量,而不是某一个 feature 的语义标签。这就绕开了「单个概念是不是 canonical」的一部分争议。10:24主播局限也很清楚。论文假设你有一个质量足够高、稀疏性合适、用 L 一惩罚训练出来的 SAE。Llama 实验用的是 Goodfire 的 Llama 三点一八十亿参数 SAE,主要看第十九层 residual stream。不同模型、不同层、Top-k SAE 或 Batch Top-k SAE,是不是也一样稳,还需要更多实验。10:51嘉宾还有一点,OOD 的定义本来就很难。错别字实验很干净,但真实世界里的分布偏移往往混着领域、风格、任务格式和用户意图。越狱实验也依赖自动评估器给成功与否打标签。它们足够有启发,但还不是最终的安全方案。11:11主播所以我会把这篇论文放在一个很具体的位置:它不是说 SAE 终于能完全解释模型了,而是提出了一种很实用的中间路线。我们可以不完全理解每一个激活概念,也能用 SAE 的整体几何信号,提前发现模型什么时候进入了危险或脆弱的内部状态。11:33嘉宾如果用一句话总结,这篇论文把 OOD 从「输入长得不像训练数据」改写成「模型内部需要用异常多的概念来解释这个输入」。这一步很关键,因为它把鲁棒性、越狱防御和数据选择,连接到了同一个 mechanistic 视角。11:53主播本期就到这里。今天精读的是 arXiv 二六零六点二六三九六,At the Edge of Understanding: Sparse Autoencoders Trace The Limits of Transformer Generalization。下一次读到类似论文时,可以多问一句:它解释的是某个漂亮 feature,还是给了我们一个能干预模型行为的内部信号?这两者都重要,但后者可能更接近把 interpretability 变成工程工具。
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.