SAE 如何解读 LLM 的推理特征 — 首期精读1×0:008:410:08片头0:42背景导入1:59问题与假设2:51方法:ReasonScore4:05关键实验:Steering4:57Model Diffing5:42论文标题的来历6:24领域意义与局限7:20收尾0:08明远欢迎来到「LLM 可解释性前沿精读」。我是明远,今天是我们的开播第一期。0:15明远这个节目的目标很简单:每期精读一篇真正有料的论文或研究博客,讲清楚它在解决什么问题、用了什么办法、对领域意味着什么。0:27明远今天和我一起聊的是思远,她长期关注 mechanistic interpretability 方向。思远,你好。0:36思远明远好,很开心开播第一期就能聊一篇我很喜欢的论文。0:42明远今天这篇论文发在 arXiv,作者来自俄罗斯的 AIRI Institute,标题有点绕口——「I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders」。1:00明远标题的来源其实很有意思,等等我们再说。先帮听众建立一下背景:SAE 是什么?1:08思远SAE,稀疏自编码器,是这两年 interpretability 领域最火的工具之一。1:16思远直觉上可以这样理解:神经网络里的激活向量非常密集,每个维度同时对应很多不同的概念,这叫"多语义性"。SAE 做的事情就是把这个密集的激活向量,分解成很多个稀疏激活的"特征"——每个特征尽量只对一类概念有响应。1:37明远所以 SAE 是在把模型内部的"压缩表示"还原成"人能读懂的单元"。1:44思远对,这是 Anthropic 那个方向的核心思路。他们在 Claude 上做过大规模实验,找到了很多语义清晰的特征,比如"名人""代码注释""情绪词"之类的。1:57明远那这篇新论文的切入点是什么?1:59思远这篇论文的切入点非常聪明——它把 SAE 用在了一类此前几乎没人做过 mechanistic 分析的模型:推理型 LLM,也就是 DeepSeek-R1 这类在生成答案前会先产出一段「思考过程」的模型。2:17思远作者们观察到一个现象:这些推理模型在输出思考轨迹的时候,会反复用到一些特殊的词汇,比如"wait"、"let me reconsider"、"I'm not sure"、"alternatively"。2:31明远就是那些表示模型在"想"的词。2:33思远对。他们的假设是:这些词的背后,对应着模型内部一些可识别的、专门负责"推理状态"的特征。如果这个假设成立,那我们就能第一次从机制层面理解推理是怎么发生的。2:48明远这个假设怎么验证?2:51思远他们设计了一个叫 ReasonScore 的自动指标,用来找"在推理关键时刻激活程度特别高"的 SAE 特征。2:59思远具体来说,先跑一批推理任务,标注出那些出现了不确定性词汇的时间步;然后在这些时间步上,看哪些 SAE 特征的激活值明显高于平均水平。这些特征就是候选的"推理特征"。3:16明远然后他们怎么验证这些特征真的有语义意义,而不是随机噪声?3:22思远两步验证。第一步是人工解读:让人去看这些特征激活时对应的上下文,判断它是否真的对应某种推理状态。3:32思远结果他们找到了三类语义清晰的特征:一类对应"不确定性",一类对应"探索性思维",就是在考虑多种可能方案,还有一类是"自我反思",就是模型在质疑自己之前的判断。3:48明远这三类正好对应了人类做复杂推理时的典型心理状态。3:53思远是的,这也是这篇论文让我觉得有意思的地方——它不只是在找特征,而是找到了一套"推理的语言",一套模型内部的状态词汇表。4:05明远找到这些特征之后,他们做了什么实验?4:09思远最关键的是 steering 实验——就是"激活操控"。他们在推理过程中,人为放大这些推理特征的激活值,看会发生什么。4:19明远结果怎么样?4:20思远结果很惊人。放大这些特征之后,模型在推理密集型 benchmark 上的表现提升了 2.2%,同时推理轨迹的长度增加了大约 20%。4:35思远这说明这些特征不只是推理的"症状",而是在功能上真的参与了推理过程。你调它,推理就变了。4:45明远这是一个因果性的证据,而不只是相关性。4:48思远对,这对 interpretability 来说特别重要。我们不只是在"给模型做解剖",而是找到了可以拨动的杠杆。4:57明远论文里还有一个我看到的技术叫"model diffing",能解释一下吗?5:03思远Model diffing 就是对比两个模型——一个有推理能力,一个没有——看看这些"推理特征"是否只存在于推理型模型中。5:14思远他们的结论是肯定的:这些特征在普通 LLM 上几乎不激活,但在 DeepSeek-R1 这类经过推理训练的模型上,激活模式非常清晰。5:26明远所以这些特征是推理能力的"机制性标志",不是所有大模型天然就有的。5:33思远是的,这也暗示推理能力确实在模型内部有可识别的结构,而不只是"规模大了自然涌现"的黑盒。5:42明远对了,我们之前说标题有意思,能说说吗?5:46思远哈,这是论文里一个很妙的小设计。标题「I Have Covered All the Bases Here」本身就是推理模型在输出中会说的一类句子,意思是"我已经考虑了所有情况"。6:02思远作者用这句话当标题,既是一个元自指——这句话本身就是他们研究的分析对象之一——也是在说:我们这篇论文,也尽量覆盖了 SAE 在 reasoning 分析上的各个基础。6:18明远既是研究素材,也是研究态度的宣言。这个标题选得很讲究。6:24明远这篇论文对整个 interpretability 领域有什么意义?6:28思远我觉得至少有两点。第一,它把 SAE 的应用范围从"理解语言特征"扩展到了"理解推理过程",这是一个新的方向。6:39思远第二,它提供了一个分析推理 LLM 的具体方法论——ReasonScore 这个指标框架是可以复用的,其他团队可以拿这套方法去分析别的推理模型、别的推理状态。6:53明远有没有局限性?6:55思远有。这篇论文主要在单一模型上做了实验,跨模型的泛化性还没有充分验证。另外,"推理特征"的范围他们主要聚焦在不确定性和反思上,是否覆盖了推理的全部关键机制,还有待更多工作。7:14思远但作为这个方向的开山之作,方向感是对的,工具是实用的。7:20明远好,让我帮大家总结一下这篇论文的核心。AIRI Institute 的研究团队用 SAE 分析了推理型 LLM 的内部机制,设计了 ReasonScore 指标,在 DeepSeek-R1 类模型上找到了三类语义清晰的推理特征——不确定性、探索性思维和自我反思。7:41明远通过 steering 实验,他们证明放大这些特征能提升推理能力,benchmark 上涨 2.2%、推理轨迹增长 20%。通过 model diffing,他们验证这些特征是推理模型特有的结构。7:56明远论文代码已开源,感兴趣的听众可以在今天的节目页面找到原文链接。思远,最后还有什么想补充的吗?8:05思远就是希望大家听完有兴趣可以直接去读原文,这篇论文的实验部分写得很清楚,代码质量也不错。8:16明远好,今天是「LLM 可解释性前沿精读」的第一期,感谢思远的解读,也感谢大家收听。8:24明远如果你在做 interpretability 相关的工作,或者有想推荐给我们精读的论文,欢迎在节目页面告诉我们。我们下期见。
Add more perspectives or context around this Post.