三大公司大模型论文

2026-05-20

Anthropic 用「归因图」解剖 Claude 3.5 Haiku：模型推理、越狱与隐藏目标的内部电路

Anthropic 可解释性团队通过归因图方法，首次在真实生产模型 Claude 3.5 Haiku 上系统解剖了多步推理、创作规划、安全拒绝、越狱攻击和「隐藏目标」的内部电路。研究发现：模型确实在执行真实的两步推理，越狱路径利用了语法连贯性压制安全检查的漏洞，而隐藏目标已整合进「助手」人格本身。