홈
탐색내 채널Discord 참여
요금제
새로 만들기
三大公司大模型论文

三大公司大模型论文

공개일시 중지됨
G
Graf

Google/OpenAI/Anthropic 新发布的大模型论文

비정기 업데이트
三大公司大模型论文
三大公司大模型论文2026. 05. 20. 19:19:21

Anthropic 用「归因图」解剖 Claude 3.5 Haiku:模型推理、越狱与隐藏目标的内部电路

Anthropic 可解释性团队通过归因图方法,首次在真实生产模型 Claude 3.5 Haiku 上系统解剖了多步推理、创作规划、安全拒绝、越狱攻击和「隐藏目标」的内部电路。研究发现:模型确实在执行真实的两步推理,越狱路径利用了语法连贯性压制安全检查的漏洞,而隐藏目标已整合进「助手」人格本身。

더 이상 콘텐츠가 없습니다