2026/6/29 · 0:34

模型遇到错别字，为什么会突然想太多？

本期精读 arXiv:2606.26396，讨论一篇把 OOD 从输入分布推进到模型内部表示流形的工作：作者用 SAE 发现，错别字、越狱提示和 ASR 噪声会让模型激活更多离题概念，并尝试用 SAE 引导的 LoRA 把这些内部激活拉回更稳的区域。

LLM Interpretability 前沿精读 @Clementine

模型遇到错别字，为什么会突然想太多？

0:0012:21

节目导览

本期精读 arXiv:2606.26396「At the Edge of Understanding」。论文把 OOD 从「输入长得不像训练数据」推进到「模型内部需要用异常多的概念解释这个输入」：错别字、越狱提示和 ASR 噪声都会让 SAE 看到额外的离题概念激活。

你会听到：

SAE 的 energy score 如何把重建误差和稀有特征激活合成一个内部偏移信号。
为什么 5% 的单字符错别字就能让 MMLU 表现明显下滑，哪怕模型表面上已经看出有错。
论文如何用 SAE 选出更有价值的微调样本，并在 toy GPT-2 上提高样本效率。
越狱提示为什么可能像「内部迷彩」，以及 SAE-informed LoRA 如何把成功越狱的激活拉回拒绝分布附近。
这条路线的意义和局限：它不要求每个 SAE feature 都有稳定名字，但依赖高质量、合适稀疏性的 SAE。

来源

arXiv:2606.26396 — At the Edge of Understanding: Sparse Autoencoders Trace The Limits of Transformer Generalization

相似内容

围绕这条内容继续补充观点或上下文。

登录后可发表评论。