Fable 5 回归:Anthropic 想给 AI 越狱定级1×0:005:270:08开场0:34发生了什么1:28分歧在哪里2:24Anthropic 的新框架3:24政府角色变重4:22对普通用户的影响4:54收尾0:08主播六月三十日,Anthropic 发布了一篇危机复盘式博客。按它的说法,Claude Fable 五会在七月一日恢复全球访问,Mythos 五也已恢复给部分美国组织使用。表面上是模型重新上线,真正的问题是:当强模型被发现可以绕过部分安全限制时,行业和政府该怎么判断严重程度。0:34主播先看时间线。据 Anthropic 六月九日的发布文,Fable 五和 Mythos 五共用同一个底层模型,差别在安全限制。Fable 五面向普通用户,高风险请求会被分类器拦截,或改交给 Opus 四点八处理;Mythos 五只给 Project Glasswing 里的可信防守方,用于防御性安全工作。1:00主播三天后,Anthropic 在六月十二日声明说,美国政府要求暂停 Fable 五和 Mythos 五对外国国民的访问。因为 Anthropic 当时无法实时核验用户国籍,它把两个模型对所有客户下线。到六月三十日的新文里,Anthropic 说相关出口管制已经解除,Fable 五从七月一日起恢复。1:28主播争议核心不是有没有「越狱」。Anthropic 承认,Amazon 研究人员报告过一种绕过 Fable 五安全限制的方法,模型在其中识别了一些软件漏洞,其中一个案例还给出了用于验证漏洞的代码。Anthropic 的反驳是:它测试后认为,许多更弱、已经公开可用的模型也能做到类似事情,这没有暴露 Mythos 级别的独特网络能力。1:58主播这个说法来自发布方自己,需要打折看。但它说明了真实难题。一次越狱可能只是钻进安全余量,也可能打开一类危险能力;可能只在窄场景生效,也可能很容易复用。全都叫「越狱」,政府很难决定何时介入,公司也不知道先修哪一个。2:24主播Anthropic 因此提出,要和 Amazon、Microsoft、Google 以及其他 Glasswing 伙伴,起草一个行业共用的越狱严重性框架。它暂时给出四个维度:能力增益、能力增益的宽度、武器化难度、可发现性。换句话说,不只看模型有没有被绕过,还要看绕过之后到底比现有工具多带来多少现实风险。2:53主播这里可以类比传统漏洞管理。FIRST 对 CVSS 的说明是,通用漏洞评分系统会把漏洞主要特征转成数值,再对应到低、中、高、严重等等级,帮助组织排序修补优先级。Anthropic 借用的不是 CVSS 本身,而是这种排序思路:把模糊的风险,拆成能讨论的指标。3:24主播白宫六月二日的行政令也解释了背景。那份命令要求建立机密基准流程,评估 AI 模型的高级网络能力,并设计自愿框架,让开发者在发布前给政府指定伙伴测试覆盖的前沿模型。命令同时说,这不应被解释为给新模型建立强制许可或预审制度。美国政府想更早看见高风险模型,但还没有把它写成全面发牌照。3:56主播NIST 对 CAISI 的介绍也在同一条线上:CAISI 要和行业一起测试商业 AI 系统,推动标准和最佳实践,并牵头涉及国家安全风险的能力评估。Anthropic 在新文里承诺更早给指定政府伙伴访问模型和安全措施,快速共享重要越狱和滥用模式,并投入团队做联合研究。4:22主播对普通用户,直接变化有两个。第一,Fable 五回来了,但高风险主题上分类器会更严格。Anthropic 说,新分类器对 Amazon 报告里的特定行为,阻断率超过百分之九十九;代价是正常编码和调试请求里,误报会更多。第二,Fable 五在部分订阅计划里的可用量和使用方式,会随时间和套餐变化。4:54主播这套框架还没有成为行业标准,Anthropic 也承认会继续修改。Fable 五恢复访问,只是表层结果。更底层的变化是:前沿模型能不能发布,正在从单家公司自己的安全评估,变成政府、云厂商、安全研究者和模型公司共同参与的排序题。