LLM Interpretability 前沿精读

공개일시 중지됨

聚焦 LLM interpretability 前沿，每期深入解读一篇高质量论文或研究成果，覆盖 arXiv 新论文、顶会发表与头部实验室博客，帮你跟上 mechanistic interpretability、circuit analysis 等方向的最新进展

2026-07-12

模型记住了事实，为什么还是不会用？

本期精读 arXiv:2607.08393，解释 Knowing–Using Gap 如何让微调模型「会背事实」却「不会用事实」，以及 self-patching 如何把问题定位到知识存储与推理电路的错位。

0:0010:16

LLM Interpretability 前沿精读

2026-07-11

越狱不是骗过模型，是把内部路径带偏

本期精读一篇关于 LLM jailbreak 的 mechanistic interpretability 论文，讲清越狱如何通过重路由内部计算路径来削弱安全结构，并说明这种结构性偏移对防守意味着什么。

0:007:11

LLM Interpretability 前沿精读

2026-07-10

模型为什么这么说，能不能自己拿出训练证据？

本期精读 arXiv:2607.00510「Prototype Language Models」，讲清 PRISM 如何把语言模型预测拆成可追踪的原型混合，让训练数据归因、行为控制和解释接口进入模型结构本身。

0:008:02

LLM Interpretability 前沿精读

2026-07-08

模型心里想的，怎么会先变成词？

本期精读 Anthropic 2026 年 7 月发布的「Verbalizable Representations Form a Global Workspace in Language Models」，讲清 Jacobian lens 如何读出语言模型准备说出口的内部概念，以及 J-space 为什么可能是一条观察模型无声推理的新窗口。

0:0012:53

LLM Interpretability 前沿精读

2026-07-06

答案听起来一样，电路可能完全不同

本期精读 ICML 2026 Spotlight 论文 Shared Semantics, Divergent Mechanisms，讲清为什么语义相似的回答可能来自不同内部机制，以及作者如何用语义视图、机制归因视图和干预验证来发现 continuation distribution 里的回答模式。