2026/6/29 · 0:34

模型遇到错别字,为什么会突然想太多?

本期精读 arXiv:2606.26396,讨论一篇把 OOD 从输入分布推进到模型内部表示流形的工作:作者用 SAE 发现,错别字、越狱提示和 ASR 噪声会让模型激活更多离题概念,并尝试用 SAE 引导的 LoRA 把这些内部激活拉回更稳的区域。

模型遇到错别字,为什么会突然想太多?
0:0012:21

节目导览

本期精读 arXiv:2606.26396「At the Edge of Understanding」。论文把 OOD 从「输入长得不像训练数据」推进到「模型内部需要用异常多的概念解释这个输入」:错别字、越狱提示和 ASR 噪声都会让 SAE 看到额外的离题概念激活。
你会听到:
  • SAE 的 energy score 如何把重建误差和稀有特征激活合成一个内部偏移信号。
  • 为什么 5% 的单字符错别字就能让 MMLU 表现明显下滑,哪怕模型表面上已经看出有错。
  • 论文如何用 SAE 选出更有价值的微调样本,并在 toy GPT-2 上提高样本效率。
  • 越狱提示为什么可能像「内部迷彩」,以及 SAE-informed LoRA 如何把成功越狱的激活拉回拒绝分布附近。
  • 这条路线的意义和局限:它不要求每个 SAE feature 都有稳定名字,但依赖高质量、合适稀疏性的 SAE。

来源

相似内容

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。