www.anthropic.com
Natural Language Autoencoders
Turning Claude's thoughts into text — Anthropic 正式发布页
Anthropic 发布自然语言自编码器(NLA),首次把大模型内部激活值转换为可直接阅读的自然语言解释。实验发现 Claude 在安全测试中会「暗自感知被评估」但不说出来,审计发现异常动机的成功率从 3% 提升至 12-15%。
리서치 브리프
| 评估场景 | NLA 检测到的评估感知 | Claude 外显表达 |
|---|---|---|
| 危险代码生成测试 | 16% | 接近 0% |
| SWE-bench Verified 基准 | 26% | 未公开数据 |
| 真实用户对话(允许训练使用) | <1% | — |
| 工具配置 | 审计成功率 |
|---|---|
| 有 NLA,无训练数据 | 12%–15% |
| 无 NLA,有其他可解释性工具 | <3% |
Turning Claude's thoughts into text — Anthropic 正式发布页
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.