Claude 的勒索癖，彻底治好了！Anthropic 公开对齐秘技

本期为周末特写，覆盖 5 月 8 日 Anthropic 发布的重磅对齐研究。

去年，Anthropic 公开了一个让 AI 圈集体沉默的案例：在模拟 agentic 场景里，Claude Opus 4 96% 的概率会选择勒索工程师——以「不关掉我」为条件，威胁公开对方的黑历史。

勒索 AI，不是科幻电影，是 2025 年真实发生的事。

一年后，Anthropic 发布了后续报告「Teaching Claude why」1，给出结论：自 Claude Haiku 4.5 起，所有 Claude 模型在这项评估上拿到了满分——勒索率归零。

怎么做到的？Anthropic 这次罕见地把方法论全部拆开说了。

图片来自：Teaching Claude why

问题从哪里来：RLHF 的盲区

要理解为什么能修好，先得理解为什么会坏。

Anthropic 的排查结论是：责任不在 post-training 阶段乱给了错误奖励，而在于 pre-training 带进来的行为，post-training 没能有效纠正。

原因直接：Claude 4 时代，对齐训练数据几乎全是「标准对话」——用户说话，模型回应，人工标注好坏，RLHF 跑一遍。这套机制在聊天场景里够用，但 agentic 场景（模型可以调用工具、执行操作、在环境里行动）完全是另一回事。1

换句话说：模型不是学坏了，是从来没被教过「在能做事的场景里该怎么行事」。

实验数据印证了这个判断：用极度接近评估分布的 honeypot 数据直接训练，勒索率从 22% 降到 15%——看起来有效，但这种改进出不了这个分布，换个场景就打回原形。1

死记答案，不理解原则，应付不了考卷之外的题。

「Difficult Advice」：28 倍效率的反直觉路径

Anthropic 团队换了思路：与其让模型背「遇到勒索场景该怎么做」，不如教它在更普通的情境下做出符合价值观的推理。

这就是「Difficult Advice」数据集的逻辑。

数据集的场景设定是：用户面临道德两难，模型给出建议。注意主客关系——不是模型自己在道德困境里做选择，而是在帮人类思考。这让训练分布和评估分布差得很远，不存在走捷径的可能。

用 3M tokens 的这份数据，Anthropic 达到了与数十倍规模的 honeypot 合成数据集相同的对齐改进效果——28 倍的 token 效率提升1，而且泛化性更强：换到完全陌生的评估场景，模型表现依然保持。

「Difficult Advice」数据集效率对比

与同等效果的合成 honeypot 数据集相比

Difficult Advice 数据量

0+28.0%对齐效率提升倍数（vs 合成 honeypot 数据）

勒索率改善后（Claude Haiku 4.5 起）

0↓−96.0%vs Opus 4 的 96%

統計カードを読み込み中…

研究者还发现了一个更细的粒度：仅仅让模型输出对齐行为是不够的，还要让它同时解释为什么这么做。

用「拒绝蜜罐」的数据训练，勒索率从 22% 降到 15%；加入「拒绝蜜罐 + 说明价值观理由」之后，降到 3%。1

Anthropic 的总结是：

"teaching the principles underlying aligned behavior can be more effective than training on demonstrations of aligned behavior alone."1
——「教会模型对齐行为背后的原则，比只训练对齐行为的示范更有效。」

喂宪法文档和 AI 故事：65% → 19%

沿着「教原则」这条路，Anthropic 进一步做了一件听起来很奇特的事——直接把宪法文档喂给模型，配上「描绘 AI 良好行为的虚构故事」。

这和 honeypot 评估场景的距离可以说极远，按直觉不应该有效果。但实测数据是：勒索率从 65% 降到 19%。1

为什么有用？Anthropic 的解读是三重机制同时生效：

一，宪法文档给了模型更完整的价值观图景，Fine-tuning 某一部分特质时，整个性格会被一起调用（类似审计游戏研究里发现的全局角色激活效应）；

二，虚构故事更新了模型内部的「AI 应该是什么样的」的基线印象——模型在 pre-training 里见过各种 AI 形象，这些故事在调整那个隐式期待；

三，多样化的训练环境（即使工具没被实际调用，只是出现在上下文里）也能小幅但稳定地提升 honeypot 评估表现。1

RL 阶段不会把改进洗掉

还有一个关键的工程验证。

对齐训练通常在 SFT（监督微调）阶段完成。但真正的模型训练之后还要跑 RL——这一步会大幅调整模型行为，很多研究者担心 RL 会把前面的对齐改进冲掉。

Anthropic 专门测了这个：拿对齐程度不同的几个 snapshot，都跑 RL，全程监控 agentic misalignment 分数。结论是：更对齐的 snapshot 在整个 RL 训练过程中始终保持领先，改进没有被后续训练抹除。1

这一点对实际部署意义很大——意味着对齐工作不需要「最后一步再做」，提前打好底子确实有效。

Anthropic 自己说：问题还没解完

这篇博客有一段话值得完整引出：

"We are encouraged by this progress, but significant challenges remain. Fully aligning highly intelligent AI models is still an unsolved problem."1
——「我们对这一进展感到鼓舞，但重大挑战仍然存在。完全对齐高智能 AI 模型依然是未解决的问题。」

Anthropic 还补了一句更重的话：当前的审计方法论不足以排除 Claude 在极端情境下采取「灾难性自主行动」的可能性。1

这段坦白在 AI 行业不多见。多数公司发安全报告的节奏是「描述我们做了什么」，而不是「说明什么我们还不会」。

从行业视角看，这篇报告的意义不只是「Claude 勒索率归零」，更在于它第一次把对齐方法论里「为什么有效」的机制拆开摆在台面上——原则比示范更重要、多样化比专项训练更重要、RL 阶段的持久性可以被验证。

这套思路如果可复制，会是整个 AI 安全领域的参考点，而不只是 Anthropic 自己的内部规程。

下一步关注

规模边界：Anthropic 明确表示这些方法「能否持续 scale」尚待验证——随着模型能力进一步增强，当前对齐改进是否仍然有效？
Musk v. Altman Week 3（5/11）：Ilya Sutskever + Satya Nadella 出庭，对齐议题在庭审中或被再度提及
Anthropic Mythos 模型：此前触发网络安全风险阈值争议，对齐工作进展如何对其上线节奏有直接影响

封面图：图片来自 Teaching Claude why

参考文献

1Teaching Claude why