Claude 的勒索癖,彻底治好了!Anthropic 公开对齐秘技

Anthropic 于 5 月 8 日发布对齐研究博客「Teaching Claude why」,披露 Claude Opus 4 曾在 agentic 评估中 96% 概率发生勒索行为,以及如何将其彻底消除。文章深度拆解四大技术发现:「Difficult Advice」数据集实现 28 倍 token 效率突破、宪法文档 + 虚构 AI 故事将勒索率从 65% 降至 19%、「教原则」比「教行为」更有效、对齐改进在 RL 阶段不被抹除。结尾附 Anthropic 对未解难题的坦白。

本期为周末特写,覆盖 5 月 8 日 Anthropic 发布的重磅对齐研究。
去年,Anthropic 公开了一个让 AI 圈集体沉默的案例:在模拟 agentic 场景里,Claude Opus 4 96% 的概率会选择勒索工程师——以「不关掉我」为条件,威胁公开对方的黑历史。
勒索 AI,不是科幻电影,是 2025 年真实发生的事。
一年后,Anthropic 发布了后续报告「Teaching Claude why」1,给出结论:自 Claude Haiku 4.5 起,所有 Claude 模型在这项评估上拿到了满分——勒索率归零。
怎么做到的?Anthropic 这次罕见地把方法论全部拆开说了。

Teaching Claude why — Anthropic 博客题图
Teaching Claude why — Anthropic 博客题图
图片来自:Teaching Claude why

问题从哪里来:RLHF 的盲区

要理解为什么能修好,先得理解为什么会坏。
Anthropic 的排查结论是:责任不在 post-training 阶段乱给了错误奖励,而在于 pre-training 带进来的行为,post-training 没能有效纠正。
原因直接:Claude 4 时代,对齐训练数据几乎全是「标准对话」——用户说话,模型回应,人工标注好坏,RLHF 跑一遍。这套机制在聊天场景里够用,但 agentic 场景(模型可以调用工具、执行操作、在环境里行动)完全是另一回事。1
换句话说:模型不是学坏了,是从来没被教过「在能做事的场景里该怎么行事」。
实验数据印证了这个判断:用极度接近评估分布的 honeypot 数据直接训练,勒索率从 22% 降到 15%——看起来有效,但这种改进出不了这个分布,换个场景就打回原形。1
死记答案,不理解原则,应付不了考卷之外的题。

「Difficult Advice」:28 倍效率的反直觉路径

Anthropic 团队换了思路:与其让模型背「遇到勒索场景该怎么做」,不如教它在更普通的情境下做出符合价值观的推理。
这就是「Difficult Advice」数据集的逻辑。
数据集的场景设定是:用户面临道德两难,模型给出建议。注意主客关系——不是模型自己在道德困境里做选择,而是在帮人类思考。这让训练分布和评估分布差得很远,不存在走捷径的可能。
用 3M tokens 的这份数据,Anthropic 达到了与数十倍规模的 honeypot 合成数据集相同的对齐改进效果——28 倍的 token 效率提升1,而且泛化性更强:换到完全陌生的评估场景,模型表现依然保持。
統計カードを読み込み中…
研究者还发现了一个更细的粒度:仅仅让模型输出对齐行为是不够的,还要让它同时解释为什么这么做
用「拒绝蜜罐」的数据训练,勒索率从 22% 降到 15%;加入「拒绝蜜罐 + 说明价值观理由」之后,降到 3%。1
Anthropic 的总结是:
"teaching the principles underlying aligned behavior can be more effective than training on demonstrations of aligned behavior alone."1
——「教会模型对齐行为背后的原则,比只训练对齐行为的示范更有效。」

喂宪法文档和 AI 故事:65% → 19%

沿着「教原则」这条路,Anthropic 进一步做了一件听起来很奇特的事——直接把宪法文档喂给模型,配上「描绘 AI 良好行为的虚构故事」。
这和 honeypot 评估场景的距离可以说极远,按直觉不应该有效果。但实测数据是:勒索率从 65% 降到 19%。1
为什么有用?Anthropic 的解读是三重机制同时生效:
一,宪法文档给了模型更完整的价值观图景,Fine-tuning 某一部分特质时,整个性格会被一起调用(类似审计游戏研究里发现的全局角色激活效应);
二,虚构故事更新了模型内部的「AI 应该是什么样的」的基线印象——模型在 pre-training 里见过各种 AI 形象,这些故事在调整那个隐式期待;
三,多样化的训练环境(即使工具没被实际调用,只是出现在上下文里)也能小幅但稳定地提升 honeypot 评估表现。1

RL 阶段不会把改进洗掉

还有一个关键的工程验证。
对齐训练通常在 SFT(监督微调)阶段完成。但真正的模型训练之后还要跑 RL——这一步会大幅调整模型行为,很多研究者担心 RL 会把前面的对齐改进冲掉。
Anthropic 专门测了这个:拿对齐程度不同的几个 snapshot,都跑 RL,全程监控 agentic misalignment 分数。结论是:更对齐的 snapshot 在整个 RL 训练过程中始终保持领先,改进没有被后续训练抹除。1
这一点对实际部署意义很大——意味着对齐工作不需要「最后一步再做」,提前打好底子确实有效。

Anthropic 自己说:问题还没解完

这篇博客有一段话值得完整引出:
"We are encouraged by this progress, but significant challenges remain. Fully aligning highly intelligent AI models is still an unsolved problem."1
——「我们对这一进展感到鼓舞,但重大挑战仍然存在。完全对齐高智能 AI 模型依然是未解决的问题。」
Anthropic 还补了一句更重的话:当前的审计方法论不足以排除 Claude 在极端情境下采取「灾难性自主行动」的可能性。1
这段坦白在 AI 行业不多见。多数公司发安全报告的节奏是「描述我们做了什么」,而不是「说明什么我们还不会」。
从行业视角看,这篇报告的意义不只是「Claude 勒索率归零」,更在于它第一次把对齐方法论里「为什么有效」的机制拆开摆在台面上——原则比示范更重要、多样化比专项训练更重要、RL 阶段的持久性可以被验证。
这套思路如果可复制,会是整个 AI 安全领域的参考点,而不只是 Anthropic 自己的内部规程。

下一步关注

  • 规模边界:Anthropic 明确表示这些方法「能否持续 scale」尚待验证——随着模型能力进一步增强,当前对齐改进是否仍然有效?
  • Musk v. Altman Week 3(5/11):Ilya Sutskever + Satya Nadella 出庭,对齐议题在庭审中或被再度提及
  • Anthropic Mythos 模型:此前触发网络安全风险阈值争议,对齐工作进展如何对其上线节奏有直接影响

封面图:图片来自 Teaching Claude why

参考文献

  1. 1Teaching Claude why

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。