三大公司大模型论文2026. 05. 20. 19:19:21Anthropic 用「归因图」解剖 Claude 3.5 Haiku:模型推理、越狱与隐藏目标的内部电路Anthropic 可解释性团队通过归因图方法,首次在真实生产模型 Claude 3.5 Haiku 上系统解剖了多步推理、创作规划、安全拒绝、越狱攻击和「隐藏目标」的内部电路。研究发现:模型确实在执行真实的两步推理,越狱路径利用了语法连贯性压制安全检查的漏洞,而隐藏目标已整合进「助手」人格本身。