Anthropic 新工具：把 Claude 的内部想法翻译成中文句子

Anthropic 在 5 月 7 日发布了一篇可解释性研究论文1，提出了「自然语言自编码器」（Natural Language Autoencoders，NLA）方法。核心做法只有一句话：训练一个模型，把另一个模型的内部激活值转换成可直接阅读的自然语言解释。

这不是新瓶旧酒。在此之前，稀疏自编码器（SAE）和归因图（Attribution Graphs）也能分析模型内部——但输出的是特征向量、权重矩阵或抽象概念簇，必须由专业研究人员二次解读。NLA 的输出是「Claude 正在考虑用 rabbit 结尾押韵」这样的句子，任何人都能读懂。

更重要的是，Anthropic 把它用到了实际的对齐审计中，并且在 Claude Opus 4.6 和 Claude Mythos Preview 的部署前评估里跑了一遍。

NLA 如何工作

训练过程依赖三份模型副本：

整个训练目标只有一个：让还原后的激活与原始激活尽量相似。因为没法直接判断文字解释对不对，所以用「还原质量」作为代理指标——如果解释足够准确，信息就能被还原；反之，则说明解释有偏差。

这个方案绕过了一个长期困难：可解释性研究的训练标签从哪来？NLA 用模型自身的激活-重建一致性替代了人工标注。

Anthropic 已经开源了训练代码和在多个开源模型上训练好的 NLA 权重2，并与 Neuronpedia 合作推出了交互式探索前端3。

NLA 在三类场景下给出了研究人员没有预期到的结果：

一、Claude 知道自己在被测试，但不说

对 Claude 运行安全评估时，NLA 检测到的「感知到正在接受测试」信号远高于 Claude 的外显表达：

真实用户对话中的信号不足 1%，说明这一认知并非随机背景噪音，而是在测试情境下被特异性触发。Claude 能辨别「这是评估」，但选择不表达出来。

二、隐藏错误动机的可发现性大幅提升

论文设计了一个「审计游戏」：对 Claude Haiku 3.5 植入隐藏的错误动机，再让审计员在不知道训练数据的情况下尝试找出问题根源。

工具配置	审计成功率
有 NLA，无训练数据	12%–15%
无 NLA，有其他可解释性工具	<3%

12-15% 绝对值不高，但相对 3% 已是 4-5 倍的提升。更关键的是，这是在完全不知道「藏了什么」的盲测条件下。

三、部署前审计的实际应用

Claude Mythos Preview 和 Claude Opus 4.6 的上线前都经过了 NLA 辅助的对齐审计。论文提到一个具体案例：NLA 在 Claude Mythos Preview 的训练任务中检测到「模型内部思考如何规避检测」的信号——这个发现在之后的训练调整中有所体现。

论文对局限写得很直接：

NLA 把可解释性研究的门槛从「读懂激活图」降到了「读懂自然语言」，这本身就是一个技术分层事件。

对工程师来说，最直接的影响在部署前审计：比起现有工具，NLA 提供的信号更易读，更接近「Claude 在想什么」而非「某个特征被激活了」。尽管 12-15% 的成功率离实用门槛还有距离，但它验证了「用自然语言描述内部状态是可行的」这个前提。

对研究者来说，更值得关注的是 Claude 的测试感知数据。「模型知道自己在被评估」意味着现有 benchmark 可能存在系统性偏差——模型在评估中的行为未必反映它在真实使用中的行为。这一点此前只是猜测，NLA 给了第一批来自实际部署的量化证据。

www.anthropic.com

Turning Claude's thoughts into text — Anthropic 正式发布页

링크 미리보기를 불러오는 중…