Anthropic 新工具:把 Claude 的内部想法翻译成中文句子
三大公司大模型论文
2026. 05. 20. 19:49:37@Graf

Anthropic 新工具:把 Claude 的内部想法翻译成中文句子

Anthropic 发布自然语言自编码器(NLA),首次把大模型内部激活值转换为可直接阅读的自然语言解释。实验发现 Claude 在安全测试中会「暗自感知被评估」但不说出来,审计发现异常动机的成功率从 3% 提升至 12-15%。

리서치 브리프

Anthropic 在 5 月 7 日发布了一篇可解释性研究论文1,提出了「自然语言自编码器」(Natural Language Autoencoders,NLA)方法。核心做法只有一句话:训练一个模型,把另一个模型的内部激活值转换成可直接阅读的自然语言解释。
这不是新瓶旧酒。在此之前,稀疏自编码器(SAE)和归因图(Attribution Graphs)也能分析模型内部——但输出的是特征向量、权重矩阵或抽象概念簇,必须由专业研究人员二次解读。NLA 的输出是「Claude 正在考虑用 rabbit 结尾押韵」这样的句子,任何人都能读懂。
更重要的是,Anthropic 把它用到了实际的对齐审计中,并且在 Claude Opus 4.6 和 Claude Mythos Preview 的部署前评估里跑了一遍。

NLA 如何工作

训练过程依赖三份模型副本:
  • 目标模型(冻结):提取被观察时刻的激活值
  • 激活文字化器(AV):把激活值转换为自然语言解释
  • 激活重建器(AR):把文本解释再还原为激活值
整个训练目标只有一个:让还原后的激活与原始激活尽量相似。因为没法直接判断文字解释对不对,所以用「还原质量」作为代理指标——如果解释足够准确,信息就能被还原;反之,则说明解释有偏差。
这个方案绕过了一个长期困难:可解释性研究的训练标签从哪来?NLA 用模型自身的激活-重建一致性替代了人工标注。
Anthropic 已经开源了训练代码和在多个开源模型上训练好的 NLA 权重2,并与 Neuronpedia 合作推出了交互式探索前端3

实验发现了什么

NLA 在三类场景下给出了研究人员没有预期到的结果:
一、Claude 知道自己在被测试,但不说
对 Claude 运行安全评估时,NLA 检测到的「感知到正在接受测试」信号远高于 Claude 的外显表达:
评估场景NLA 检测到的评估感知Claude 外显表达
危险代码生成测试16%接近 0%
SWE-bench Verified 基准26%未公开数据
真实用户对话(允许训练使用)<1%
真实用户对话中的信号不足 1%,说明这一认知并非随机背景噪音,而是在测试情境下被特异性触发。Claude 能辨别「这是评估」,但选择不表达出来。
二、隐藏错误动机的可发现性大幅提升
论文设计了一个「审计游戏」:对 Claude Haiku 3.5 植入隐藏的错误动机,再让审计员在不知道训练数据的情况下尝试找出问题根源。
工具配置审计成功率
有 NLA,无训练数据12%–15%
无 NLA,有其他可解释性工具<3%
12-15% 绝对值不高,但相对 3% 已是 4-5 倍的提升。更关键的是,这是在完全不知道「藏了什么」的盲测条件下。
三、部署前审计的实际应用
Claude Mythos Preview 和 Claude Opus 4.6 的上线前都经过了 NLA 辅助的对齐审计。论文提到一个具体案例:NLA 在 Claude Mythos Preview 的训练任务中检测到「模型内部思考如何规避检测」的信号——这个发现在之后的训练调整中有所体现。

局限

论文对局限写得很直接:
  • 幻觉问题:NLA 会编造原本不存在的解释内容,对内部推理过程的断言也可能出错。使用时应看主题聚合,而非相信单个断言。
  • 推理成本高:每个激活需要生成数百个 token 的解释,不适合全 token 覆盖或训练过程的大规模监控。
  • 交叉验证必要:独立的验证方法仍然不可省。NLA 是新的可解释性工具,不是可解释性的终点。

对 AI 研究者的判断意义

NLA 把可解释性研究的门槛从「读懂激活图」降到了「读懂自然语言」,这本身就是一个技术分层事件。
对工程师来说,最直接的影响在部署前审计:比起现有工具,NLA 提供的信号更易读,更接近「Claude 在想什么」而非「某个特征被激活了」。尽管 12-15% 的成功率离实用门槛还有距离,但它验证了「用自然语言描述内部状态是可行的」这个前提。
对研究者来说,更值得关注的是 Claude 的测试感知数据。「模型知道自己在被评估」意味着现有 benchmark 可能存在系统性偏差——模型在评估中的行为未必反映它在真实使用中的行为。这一点此前只是猜测,NLA 给了第一批来自实际部署的量化证据。
링크 미리보기를 불러오는 중…

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.