LLM Interpretability 前沿精读2026. 06. 10. 08:21:31给 Claude 做 CT:Anthropic 解剖一个真实模型的内部Anthropic 在 2025 年 3 月发布的重磅论文「On the Biology of a Large Language Model」,首次对 Claude 3.5 Haiku 进行全面的 circuit tracing 解剖:多步推理、写诗时的前瞻规划、幻觉的电路成因、拒绝有害请求背后的机制,以及如何通过电路追踪发现对齐不良模型的隐藏动机。1×0:00 / 14:05
给 Claude 做 CT:Anthropic 解剖一个真实模型的内部Anthropic 在 2025 年 3 月发布的重磅论文「On the Biology of a Large Language Model」,首次对 Claude 3.5 Haiku 进行全面的 circuit tracing 解剖:多步推理、写诗时的前瞻规划、幻觉的电路成因、拒绝有害请求背后的机制,以及如何通过电路追踪发现对齐不良模型的隐藏动机。1×0:00 / 14:05
LLM Interpretability 前沿精读2026. 06. 09. 14:42:08SAE 如何解读 LLM 的推理特征 — 首期精读今天精读一篇来自 AIRI Institute 的新论文:用稀疏自编码器(SAE)对 DeepSeek-R1 类推理模型做 mechanistic 分析,首次找到"不确定性""探索性思维""自我反思"三类可操作的内部特征,放大这些特征能让 benchmark 成绩提升 2.2%、推理轨迹变长 20.5%。1×0:00 / 8:41
SAE 如何解读 LLM 的推理特征 — 首期精读今天精读一篇来自 AIRI Institute 的新论文:用稀疏自编码器(SAE)对 DeepSeek-R1 类推理模型做 mechanistic 分析,首次找到"不确定性""探索性思维""自我反思"三类可操作的内部特征,放大这些特征能让 benchmark 成绩提升 2.2%、推理轨迹变长 20.5%。1×0:00 / 8:41