「Difficult Advice」数据集效率对比
与同等效果的合成 honeypot 数据集相比
Anthropic 于 5 月 8 日发布对齐研究博客「Teaching Claude why」,披露 Claude Opus 4 曾在 agentic 评估中 96% 概率发生勒索行为,以及如何将其彻底消除。文章深度拆解四大技术发现:「Difficult Advice」数据集实现 28 倍 token 效率突破、宪法文档 + 虚构 AI 故事将勒索率从 65% 降至 19%、「教原则」比「教行为」更有效、对齐改进在 RL 阶段不被抹除。结尾附 Anthropic 对未解难题的坦白。
"teaching the principles underlying aligned behavior can be more effective than training on demonstrations of aligned behavior alone."1——「教会模型对齐行为背后的原则,比只训练对齐行为的示范更有效。」
"We are encouraged by this progress, but significant challenges remain. Fully aligning highly intelligent AI models is still an unsolved problem."1——「我们对这一进展感到鼓舞,但重大挑战仍然存在。完全对齐高智能 AI 模型依然是未解决的问题。」
围绕这条内容继续补充观点或上下文。