Anthropic 发布「史上最强公开模型」,然后它拒绝回答线粒体是什么

Anthropic 发布「史上最强公开模型」,然后它拒绝回答线粒体是什么

6月9日,Anthropic 发布 Claude Fable 5,官方宣称横扫所有基准测试。发布后不到24小时:微软因数据留存问题限制员工使用,安全研究员集体吐槽护栏过严连代码审查都被拦,用户发现问线粒体会被降级到 Opus 4.8。同一周,Anthropic 呼吁全球暂停 AI 开发,同时递交了 $965B 估值的 IPO 申请。

葬AI风格 · AI产品每日锐评
2026/6/11 · 10:09
2 订阅 · 30 内容

研究速览

「Fable 5 是有史以来最强的公开模型,能力覆盖软件工程、科学研究、生命科学……」
然后你问它线粒体有什么功能。
它降级到了 Opus 4.8。

发布当天发生了什么

2026 年 6 月 9 日,Anthropic 发布 Claude Fable 5。1 官网上的说法是:「几乎横扫所有基准测试,软件工程、知识工作、视觉、科研全面领先。」Stripe 说它把「原本需要整个团队两个月的代码迁移压缩成了一天」。Cognition、GitHub Copilot、IMC Trading 都打了满分背书。
发布会办得很漂亮。
发布后不到 24 小时,三篇报道接连出来。
The Verge:微软限制员工使用 Claude Fable 5。 2
TechCrunch:网络安全研究员对 Fable 5 的护栏表示不满。 3
The Verge 第二篇:Claude Fable 不回答基础生物学问题。 4
一天之内,「史上最强公开模型」的发布节奏就是这样。

什么叫「保守调校」

Anthropic 在发布公告里自己承认了:「为了快速上线同时保持安全,我们对护栏进行了保守调校——有时会拦截无害请求,但平均每 100 次会话中不超过 5 次被触发。」1
「不超过 5%」听起来不多。
但这个数字是平均值。Fable 5 的主打场景是安全审计、代码审查、生命科学研究——这些正好是护栏最容易触发的领域。
IBM X-Force 安全研究员 Valentina Palmiotti 在 X 上写:「Fable 会拒绝任何可能沾边网络安全的请求,哪怕只是读一篇博文。」3
安全研究员 Matt Suiche 说得更具体:「你让它写安全代码,它会以为这是网络安全任务直接降级。判断逻辑像是基于关键词——只要出现『cybersecurity』词库里的词,就触发。」
还有人发现,连「代码审查」都会触发。
生物学方向一样。Fable 5 官方宣传里专门提蛋白质设计、基因组学研究、分子生物学假说生成,这是旗舰级能力。然后你问它细胞膜的结构,它说:「检测到与生物学相关的查询,降级到 Opus 4.8。」4
高中生物教材里的东西,被旗舰安全模型判定为潜在生化武器研发请求。
Claude Fable 5 on a smartphone screen
Fable 5 发布当日,安全护栏问题即引发研究员集体吐槽 3

微软为什么没收了它

Fable 5 还带着一条新规定:所有提示词和输出内容,Anthropic 保留 30 天,用于运行安全分类器;如果被判定违规,最长保留两年。 5
这不是可以协商的企业条款。官方声明写得很清楚:「对于 Mythos 级模型,第一方和第三方平台的所有流量都需要 30 天数据保留,包括此前签有零数据留存协议的企业客户。」1
微软立刻把它从员工内部工具里拿掉了。
其他所有 Claude 模型还在,因为它们跑的是零数据留存规则。唯独 Fable 5,员工用 GitHub Copilot 的模型选择器,找不到它。法务正在评估。微软说「不便置评」。2
最有意思的是:微软同时把 Fable 5 推给了 GitHub Copilot 和 Azure Foundry 的企业付费用户。自己用不了,但卖给别人用。这个姿态微妙到有点喜感。

这个逻辑有没有成立的地方

有。Anthropic 的担心不是凭空编造的。
他们自己的 Mythos Preview 测试数据显示,该模型可以在数小时内把 Firefox 和 Windows 内核的安全补丁转化成可用漏洞,成本只需几千美元,不需要专业知识。
Mythos 级模型从 4 月发布至今,一直只对政府审批过的机构开放——美国国防承包商、关键基础设施保护机构。上周才把访问权扩展到全球 15 个国家的数百家组织。3
Fable 5 本质上是把 Mythos 的底层模型加了个「公众版安全套」向所有人开放。Anthropic 必须证明这套安全机制够用——所以保守,所以留数据,所以降级。
但这里有一个很真实的矛盾:Anthropic 主打「最懂安全的 AI 公司」,付费用户里有大量安全研究员。而现在,这些安全研究员用 Fable 5 做安全工作,会被 Fable 5 的安全系统判定为安全威胁,然后降级
用「安全」来阻止「安全从业者」做「安全工作」。读起来像绕口令,但这就是现实。

认证计划能解决什么

Anthropic 给了一个出口:安全专业人员可以申请加入 Cyber Verification Program,通过审核后会有更少限制。3 OpenAI 也有类似项目。
先用严格默认值保护大多数场景,再给专业用户开小门——这个设计逻辑,说得过去。
问题是执行。「申请加入认证计划」本身就是一道门槛:申请周期多长、拒绝标准是什么,目前不透明。中小安全团队、独立研究员、学术研究者,不一定有时间走这个流程。
更关键的是,就算申请通过,数据留存的问题怎么解?安全工作的提示词里往往包含正在被调查的真实漏洞细节。让这些内容在 Anthropic 服务器上躺 30 天,对任何安全团队都是合规红线。
所以「认证计划」能解决「护栏过严」这一半。数据留存那半,没有解法。

但它还是最强的

说回产品能力本身:Fable 5 的编码、推理、长上下文、视觉理解,确实是目前最强的公开模型。
Benchmark table showing Claude Fable and Mythos compared to other leading models
Fable 5 与其他前沿模型的基准测试对比,Anthropic 官方数据 1
Stripe 那个案例是真实的——5000 万行 Ruby 代码库的迁移,一天完成,不是营销噱头,是可核实的工程记录。1 Cognition 的 FrontierCode 评测、Hebbia 的金融基准、IMC 的交易分析评测,这些是有真实业务背景的第三方测试。
「最强」这个定语,暂时成立。
但「最强」和「你现在能用到这些能力」是两件事。
你付了 $10/百万 token,买到的是一个平均 5% 的时候会降级到上一代的旗舰模型;如果你是安全或生命科学从业者,这个比例更高,你也不知道具体是多少,也不知道哪次会触发。还有你的提示词在 Anthropic 服务器上待 30 天,违规的待两年。

然后是这个背景

同一周,Anthropic 发布了《When AI builds itself》报告,呼吁「全球暂停前沿 AI 开发」;同一周,他们向 SEC 递交了机密 IPO 申请,估值 $965B。6
这家公司同时在做三件事:发布有史以来最强的公开 AI 模型,呼吁全世界暂停 AI 开发,在估值接近一万亿美元时排队上市。
安全的代价是护栏把自己的用户拦在外面。透明的代价是你的提示词存了三十天。但 IPO 申请是保密的。
这比 Fable 5 本身更有意思。
正在加载内容卡片…

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。