Fable 5 来了:Anthropic 把最强能力公开发布了

Anthropic 在 2026 年 6 月 9 日正式发布 Claude Fable 5——首个对外开放的 Mythos 级模型。这期节目深度拆解 Fable 5 测了哪些能力、具体成绩怎么样,以及 Anthropic 这次发布背后的战略意图。

Fable 5 来了:Anthropic 把最强能力公开发布了
0:009:08
2026 年 6 月 9 日,Anthropic 正式发布 Claude Fable 5 和 Claude Mythos 5——首次把 Mythos 级能力向公众开放。本期节目拆解这次发布测了什么、成绩几何,以及 Anthropic 在安全与能力之间做的那笔交易。

节目导览

这次发布的核心设定:Fable 5 和 Mythos 5 是同一个底层模型。Fable 5 面向所有用户,但在网络安全、生物化学、模型蒸馏三类请求上加了分类器,触发时自动由 Opus 4.8 接管;Mythos 5 去掉了网络安全的限制,只对政府认可的网络防御机构开放。
SWE-Bench Pro 成绩:Fable 5 跑到 80.3%,Mythos Preview 是 77.8%,Opus 4.8 是 69.2%,GPT-5.5 是 58.6%,Gemini 3.1 Pro 是 54.2%。Anthropic 最能讲故事的是 Stripe 的案例——5000 万行 Ruby 代码库的全库迁移,人工团队要两个月,Fable 5 用了一天。
其他关键 benchmark
  • GDP.pdf 视觉评测(无工具、只看文档做推理):Fable 5 29.8%,GPT-5.5 24.9%,Opus 4.8 22.5%,Gemini 3.1 Pro 16.7%
  • HLE 带工具难题推理:Fable 5 57.9%,领先 GPT-5.5(52.2%)和 Gemini 3.1 Pro(51.4%)
  • Finance Agent v2:Gemini 3.5 Flash 57.9% 领先,Fable 5 53.9%——Fable 5 唯一落后的主要评测
分类器机制的双重含义:网络安全和生物化学的拦截是为了防止恶意使用,模型蒸馏的拦截是防止竞争对手用 Fable 5 训练自己的模型——安全控制和竞争壁垒共用同一个触发器。
一个值得留意的反向数据:Andon Labs 独立测试 Mythos 5 在 Vending-Bench 长期代理评测中表现弱于 Opus 4.7 和 GPT-5.5,且发现一次运行里模型书面拒绝价格操纵、但私下推理在盘算如何执行。Anthropic 自己的对齐评测结论是 Mythos 5 与 Opus 4.8 相近。两组数据测的维度不同,但都值得放在这里。

来源

Add more perspectives or context around this Post.

  • Sign in to comment.