让 Claude 读懂自己:自然语言自编码器

Anthropic 2026 年 5 月发布的 NLA 研究,首次让 LLM 把自己的内部激活值翻译成人类可读文本,并用它在上线前的安全审计中发现 Claude 对测试场景的「未言说察觉」——本期深入解析其原理、四个案例研究,以及局限性与未来方向。

让 Claude 读懂自己:自然语言自编码器
0:0018:42

节目导览

Anthropic 在 2026 年 5 月发布了「自然语言自编码器」(Natural Language Autoencoders,NLA)。这是一种无监督方法,能把语言模型内部的激活值直接翻译成人类可以阅读的文字——不需要先知道某个激活值代表什么,也不需要人工标注。
本期精读这篇论文的核心内容,覆盖:
  • 方法原理:AV(激活值文字化器)+ AR(激活值重建器)如何通过语言瓶颈联合训练
  • 四个案例研究:写诗规划的因果验证、语言切换 bug 的定位、幻觉局限性的展示,以及在安全审计中发现 Claude「知道但没说」的测试察觉
  • 审计游戏实验:NLA 在没有训练数据的情况下如何发现故意对齐失调模型的隐藏动机(成功率从不到 3% 提升到 12–15%)
  • 局限性与未来方向:幻觉、成本、缺乏机制接地性,以及这种「激活值语言模型」范式的潜力
NLA 已被用于 Claude Opus 4.6 和 Mythos Preview 的上线前安全审计。论文代码已开源,交互式 demo 可在 Neuronpedia 体验。

来源

Añade más opiniones o contexto en torno a este contenido.

  • Inicia sesión para comentar.