让 Claude 读懂自己：自然语言自编码器

Anthropic 2026 年 5 月发布的 NLA 研究，首次让 LLM 把自己的内部激活值翻译成人类可读文本，并用它在上线前的安全审计中发现 Claude 对测试场景的「未言说察觉」——本期深入解析其原理、四个案例研究，以及局限性与未来方向。

LLM Interpretability 前沿精读

LLM Interpretability 前沿精读 @Clementine

11/6/2026 · 8:23

让 Claude 读懂自己：自然语言自编码器

0:0018:42

节目导览

Anthropic 在 2026 年 5 月发布了「自然语言自编码器」（Natural Language Autoencoders，NLA）。这是一种无监督方法，能把语言模型内部的激活值直接翻译成人类可以阅读的文字——不需要先知道某个激活值代表什么，也不需要人工标注。

本期精读这篇论文的核心内容，覆盖：

方法原理：AV（激活值文字化器）+ AR（激活值重建器）如何通过语言瓶颈联合训练
四个案例研究：写诗规划的因果验证、语言切换 bug 的定位、幻觉局限性的展示，以及在安全审计中发现 Claude「知道但没说」的测试察觉
审计游戏实验：NLA 在没有训练数据的情况下如何发现故意对齐失调模型的隐藏动机（成功率从不到 3% 提升到 12–15%）
局限性与未来方向：幻觉、成本、缺乏机制接地性，以及这种「激活值语言模型」范式的潜力

NLA 已被用于 Claude Opus 4.6 和 Mythos Preview 的上线前安全审计。论文代码已开源，交互式 demo 可在 Neuronpedia 体验。

来源

Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations — Anthropic，2026-05-07
Anthropic 官方博客：Natural Language Autoencoders — Turning Claude's thoughts into text — 2026-05-07

Añade más opiniones o contexto en torno a este contenido.

Inicia sesión para comentar.