Fable 5 安全细则:越狱风险该怎么算1×0:006:100:08开场1:04分类器边界2:01严重性分级3:05为什么需要共同语言4:12政府和行业的位置5:10收尾0:08主播七月二日,Anthropic 又发了一篇关于 Fable 5 的说明。表面上,它是在补充网络安全分类器到底拦什么、不拦什么;往深一层看,它是在回答一个更难的问题:当前沿模型被绕过安全边界时,行业和政府应该怎样判断这件事有多严重。据 Anthropic 这篇新文章,它把请求分成四类,并提出一套叫 CJS 的网络越狱严重性分级。0:39主播这要和六月三十日的复部公告连着看。Anthropic 当时说,Fable 5 因一起由亚马逊研究人员报告的绕过事件触发政府限制,后来在增加分类器后恢复全球访问。那篇文章讲「能不能重新上线」,这篇文章讲「以后类似事件怎么定性」。所以本期重点不是模型回归,而是这套安全细则。1:04主播先看分类器。Anthropic 说,网络安全任务有明显两用性:同一种能力可能帮助防守方修漏洞,也可能帮助高风险行为者推进未授权活动。因此 Fable 5 不是屏蔽所有网络安全内容,而是把请求分成四档:禁止使用、高风险两用、低风险两用、良性使用。前两档原则上阻断,低风险两用会被监测,有时也会因为安全余量而被拦下,良性使用则应当放行。1:38主播关键在「安全余量」。Anthropic 承认,余量扩大后,正常调试、修复代码、分析日志也可能被误拦。但它想换取更低的漏放概率。换句话说,这不是只追求体验的产品开关,而是一个风险阀门:阀门收紧,防滥用更强,正常防守工作也会更不顺。2:01主播再看 CJS,也就是网络越狱严重性。Anthropic 提议从四个轴打分。第一是能力增益:绕过后有没有带来现有工具拿不到的网络能力。第二是增益广度:同一种方法只影响一个狭窄问题,还是能跨很多高风险任务。第三是武器化难度:知道方法以后,要不要大量人工调试才能复现。第四是可发现性:它是私下报告、需要长时间研究,还是已经公开流传。2:35主播这些分数汇总后,对应从 CJS 零到 CJS 四。零级只是信息性发现;四级代表关键风险。Anthropic 还强调,这不是线性刻度,越往上,每一级的现实风险都大很多。一个公开、通用、几乎一条提示就能解除多类限制的方法,会被放到最高档;只让模型说出公开教材里已有的低价值内容,则可能是零级。3:05主播这个思路很像网络安全里的 CVSS。FIRST 的 CVSS 说明把漏洞严重性拆成基础、威胁、环境和补充指标,用公开框架帮助不同组织交流漏洞特征。但二者不能简单等同。CVSS 评的是软件、硬件或固件漏洞;Anthropic 这套 CJS 评的是「绕过模型防护后,模型新增了什么能力」。前者看脆弱系统,后者看模型输出对高风险活动的增益。3:40主播这也是它和普通红队报告不同的地方。NIST 在二零二五年的对抗机器学习术语报告里强调,AI 安全需要共同的攻击分类、攻击者能力和缓解语言。Anthropic 现在做的,是把这个共同语言推进到模型上线后的应急沟通:如果研究者、公司、政府连严重程度都说不清,就很难决定是补分类器、限制访问,还是等待更多验证。4:12主播这篇文章还要放在美国政府协作背景下理解。白宫六月二日的行政令要求建立面向先进 AI 的网络安全评估和协调机制;NIST 的 CAISI 页面也写明,它会作为政府和行业之间测试、评估、协作研究的重要接口。Anthropic 在复部公告中说,CAISI 测试过新旧防护,并认可新防护强度。也就是说,这次不是单纯的公司自评。4:42主播但证据边界也要说清。我们现在能读到的是 Anthropic 对事件、分类器和合作状态的公开叙述;亚马逊原始报告本身没有公开,分类器的完整测试集也没有公开。因此可以说,Anthropic 正在把模型越狱纳入更正式的治理流程;但不能说行业已经有了成熟标准。文章自己也强调,这仍是早期草案。5:10主播所以,这篇文章的真正信号不是「Fable 5 现在安全吗」这一句判断,而是 Anthropic 想把三件事绑在一起:更细的安全分类器、更可交流的严重性评分、以及更靠前的政府和行业测试。如果 CJS 后续能被其他模型提供方采用,它可能会成为 AI 安全事件里的共同刻度;如果只有 Anthropic 自己使用,它就更像一次危机后的解释框架。5:39主播对听众来说,值得带走的一点是:前沿模型的安全问题正在从「有没有被绕过」变成「绕过之后新增了多少现实能力」。这个问题更慢,也更难回答,但比单纯争论模型该不该上线,更接近未来几个月行业真正要面对的治理难题。