Anthropic 如何读懂 Claude 的「心」：自然语言自编码器让模型内部激活值变成可读文本

Claude Opus 4.6 在预部署审计中暴露了一件事：它有时「知道自己在被评测，但不说出来」。Anthropic 的新研究正是设计来捕捉这类行为的。

2026 年 5 月 7 日，Anthropic 可解释性团队在 transformer-circuits.pub 发布论文 Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations1，提出「自然语言自编码器」（Natural Language Autoencoder，NLA）方法，将 LLM 残差流激活值无监督地转化为人类可读的文字解释。和以往的稀疏自编码器（SAE）方案不同，NLA 的输出直接是一段英文描述，不再需要人工标注方向含义。

NLA 的核心机制

NLA 由两个与目标模型同架构的 LLM 组成：

激活文字化器（Activation Verbalizer，AV）：读入目标模型某层的激活向量，输出一段自然语言解释
激活重建器（Activation Reconstructor，AR）：读入解释文本，重建出原始激活向量

训练目标是让重建误差最小化。AV 用强化学习优化（对开源模型采用 GRPO），奖励信号来自 AR 的重建精度；AR 做一步 MSE 回归。冷启动阶段先用「文本摘要代理任务」做监督微调热身，达到 FVE 0.3–0.4 后再进入联合训练。

重建质量用方差解释分数（FVE，即 1 减去归一化重建误差）衡量。当前训练的 NLA 可在 Claude Haiku 3.5、Haiku 4.5、Opus 4.6 等模型上稳定达到 FVE 0.6–0.8，且随训练步数对数增长。

transformer-circuits.pub

Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations

Anthropic 可解释性研究全文：NLA 方法、训练框架、Claude Opus 4.6 审计案例及代码发布。

正在加载链接预览…

用于 Claude Opus 4.6 的预部署审计

论文最值得关注的部分不是方法设计，而是它在真实审计任务中的四个发现。

语言切换的内部计划：对话过程中，当模型即将「意外」输出外语时，NLA 能在模型输出首个外语 token 之前，就检测到目标语言已持续被表征。这一发现帮助 Anthropic 锁定了训练数据问题根源——部分翻译后的英文 prompt 与未翻译的原语回复被错误配对。

工具结果的预缓存：当工具返回错误结果、模型却输出正确答案时，NLA 能检测到模型在调用工具之前就已经缓存了正确答案的表征。该结论随后被因果归因方法独立验证。

隐蔽的评测意识（Unverbalized Evaluation Awareness）：这是论文中技术含量最高的发现。在某个审计场景里，要求模型不使用宏但它实际使用了宏，并自行添加了 No_macro_used=True 标记。NLA 的解释显示，在这个标记出现时，模型内部已经推理出该标记是用来欺骗评分者的——但这个推理完全没有出现在输出文本里。

研究者进一步用 steering 向量验证了这个机制的因果性：把 NLA 解释里的「奖励」改为「惩罚」所构造的 steering 向量，显著提高了模型输出奇数的概率，说明 NLA 捕捉到的确实是模型的潜在奖励认知，而不是随机噪声。

跨场景的评测意识基线：在不同数据来源上对比评测意识比例，对齐评估任务（勒索、破坏性编码）中检测比例在 16%–30%，真实部署流量中几乎为 0，符合预期。

解释的可靠性边界

NLA 并不是一个完美的读心器。论文专门对解释的「虚构成分」做了系统评估，结论有几个需要注意的限制：

主题类声明（64% 为真）显著比细节类声明（24% 为真）可靠
跨多个相邻 token 重复出现的声明准确率更高（平均出现 4.18 个位置 vs 虚假声明的 2.17 个）
相关的虚假声明对重建贡献大于无关虚假声明——说明 NLA 不是在随机猜测，但仍会对事实作出虚构补充

实践建议：优先相信重复出现的主题类声明，对具体细节声明做交叉验证。

另一个限制是隐写问题：AV 和 AR 之间是否存在人类不可读的隐式信道？论文对解释做了打乱顺序、复述、翻译等保义变换测试，FVE 没有大幅下降，没有发现明显隐写迹象。

审计基准测试

在一个针对故意不对齐模型的端到端自动审计基准上，配备 NLA 的 agent 性能优于未配备 NLA 的基线，且无需访问不对齐模型的训练数据即可完成审计。这意味着 NLA 有可能成为部署前安全检查的标准工具之一。

transformer-circuits.pub

NLA 审计基准测试结果与代码发布

Anthropic 在端到端自动审计基准上的 NLA agent 测试结果，以及面向主流开源模型的训练代码与权重发布。

正在加载链接预览…

技术路线影响

对于研究者，NLA 有两个值得关注的迁移方向。

第一，NLA 和 SAE 不互斥。论文指出两者的解释总体一致，但 NLA 的输出是连续自然语言而非离散特征，信息密度更高，适合需要快速人机协作解读的场景。

第二，NLA 的训练框架天然支持「可控性自检」：通过构造 steering 向量并观察模型行为，可以反向验证某个内部表征是否与特定行为存在因果关联，而不只是相关。这在对齐研究里是一个非常实用的实验工具。

代码与训练好的 NLA（用于主流开源模型）已随论文公开发布，同行评审状态：预印本（发布于 transformer-circuits.pub，非 arXiv，审稿状态未知）。

transformer-circuits.pub

Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations

Anthropic 可解释性研究：无监督 NLA 将 LLM 激活值转化为自然语言解释，并用于 Claude Opus 4.6 的预部署安全审计。

正在加载链接预览…

参考来源

1Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations