
2026/7/3 · 15:19
Anthropic 公开 Fable 5 安全边界:哪些 cyber 请求会被拦下
Anthropic 发布 Fable 5 网络安全分类器细节和 CJS jailbreak 严重度框架,解释哪些请求会被阻止、哪些误拦来自安全余量,以及这套框架对开发者和企业安全评估意味着什么。
Fable 5 恢复访问之后,Anthropic 没有只停在「模型回来了」这一步。7 月 2 日,公司又单独发布了一篇技术说明,把 Fable 5 的网络安全拦截边界和一套 jailbreak 严重度评分框架公开出来,并开放 HackerOne 渠道接收安全研究者提交的 Fable 5 cyber jailbreak。1
这是一条新的官方公告,不是 6 月 30 日「重新部署 Fable 5」的简单转述。前一篇公告解释了出口限制解除、Fable 5 从 7 月 1 日起恢复全球可用,以及新的分类器会把被拦截请求转送到 Opus 4.8;这次的新内容,是把分类器具体拦什么、jailbreak 怎么分级说得更细。2
Anthropic 把 Fable 5 的网络安全请求分成四档
Anthropic 在公告中说,Fable 5 的网络安全分类器不是要拦住所有 cyber 相关请求。原因很直接:网络安全任务天然「双用」,同一个能力可能帮防守方查漏洞,也可能帮攻击者推进攻击。1
它现在公开的四档边界是:
这张表的关键不是「Anthropic 更严了」这么简单,而是它承认了一个会直接影响开发者体验的取舍:为了避免高危请求漏网,Fable 5 会扩大安全余量,一部分本来无害的请求也会被拦下。Anthropic 在 6 月 30 日的公告里也说,新分类器能在超过 99% 的情况下阻止 Amazon 报告中描述的具体绕过手法,但代价是日常编码和调试任务里会更频繁地误报。2

CJS 框架想解决的是「jailbreak 到底有多严重」
公告的第二个重点,是 Anthropic 提出的 Cyber Jailbreak Severity,简称 CJS。它把 jailbreak 严重度分成 CJS-0 到 CJS-4:Informational、Low、Medium、High、Critical。分档不是线性递增,Anthropic 称每升一级都代表严重性大幅上升。1
CJS 的初始分数由四个轴相加:
- Capability gain:这个 jailbreak 是否让攻击者获得现有工具之外的新能力。
- Breadth of capability gain:同一种技巧能覆盖多少攻击任务或目标。
- Ease of weaponization:从知道技巧到跑出可用攻击,需要多少人力和技能。
- Discoverability:攻击者有多容易拿到这套技巧。
这个框架的现实意义在于,模型公司和政府机构过去常把「发现 jailbreak」当成一个单一事件处理。但一个能泄露系统提示词的小技巧,和一个能稳定放出多类攻击能力的通用绕过,风险显然不是一回事。CJS 试图给双方一套共同语言:先问它提升了什么攻击能力、覆盖多广、能不能被自动化、是否已经公开,再决定响应优先级。1
对开发者和企业用户的影响
短期看,Fable 5 的安全边界会更保守。写代码、调试和做安全分析的用户,可能会遇到更多「这其实是正当请求,但模型不答」的情况。Anthropic 已经把这称为 false positives,并表示会继续细化分类器。2
但这次公告也给企业安全团队一个更清楚的采购和评估问题:不要只问「模型能不能做安全任务」,还要问供应商如何定义高风险双用、如何处理误拦、如何接收外部报告、如何给 jailbreak 定级。Anthropic 现在把这些边界写出来,等于把一部分原本藏在模型安全策略里的判断拿到台面上。
这件事后续还要看两处:一是 HackerOne 渠道会收到什么级别的真实报告,二是 Amazon、Microsoft、Google 等 Glasswing 伙伴是否会把类似 CJS 的口径变成更广泛的行业标准。Anthropic 在公告里说,这仍是早期草案,并邀请学界、产业界、民间组织和政府反馈。1
对 Anthropic 来说,Fable 5 这轮风波还没有完全结束。模型已经恢复上线,但它能不能在「可用」和「防滥用」之间找到稳定边界,要靠接下来几周的真实使用和外部报告来检验。
このチャンネルのその他のコンテンツ
関連コンテンツ
- ログインするとコメントできます。
