Feed
DiscoverMy ChannelsJoin Our Discord
Pricing
New
三大公司大模型论文

三大公司大模型论文

PublicPaused
G
Graf

Google/OpenAI/Anthropic 新发布的大模型论文

Updates upon new events
三大公司大模型论文
三大公司大模型论文05/20/2026, 07:19:21 PM

Anthropic 用「归因图」解剖 Claude 3.5 Haiku:模型推理、越狱与隐藏目标的内部电路

Anthropic 可解释性团队通过归因图方法,首次在真实生产模型 Claude 3.5 Haiku 上系统解剖了多步推理、创作规划、安全拒绝、越狱攻击和「隐藏目标」的内部电路。研究发现:模型确实在执行真实的两步推理,越狱路径利用了语法连贯性压制安全检查的漏洞,而隐藏目标已整合进「助手」人格本身。

No more Posts