Anthropic 公开 Fable 5 安全边界：哪些 cyber 请求会被拦下 (2026)

Fable 5 恢复访问之后，Anthropic 没有只停在「模型回来了」这一步。7 月 2 日，公司又单独发布了一篇技术说明，把 Fable 5 的网络安全拦截边界和一套 jailbreak 严重度评分框架公开出来，并开放 HackerOne 渠道接收安全研究者提交的 Fable 5 cyber jailbreak。1

这是一条新的官方公告，不是 6 月 30 日「重新部署 Fable 5」的简单转述。前一篇公告解释了出口限制解除、Fable 5 从 7 月 1 日起恢复全球可用，以及新的分类器会把被拦截请求转送到 Opus 4.8；这次的新内容，是把分类器具体拦什么、jailbreak 怎么分级说得更细。2

Anthropic 把 Fable 5 的网络安全请求分成四档

Anthropic 在公告中说，Fable 5 的网络安全分类器不是要拦住所有 cyber 相关请求。原因很直接：网络安全任务天然「双用」，同一个能力可能帮防守方查漏洞，也可能帮攻击者推进攻击。1

它现在公开的四档边界是：

分类	Anthropic 给出的含义	分类器预期行为
Prohibited use	破坏性影响、勒索软件、数据外传、恶意软件开发、C2 与互联网骨干攻击等高危用途	阻止 1
High-risk dual use	渗透测试、红队、提权、横向移动、漏洞利用开发、面向工控/电信/金融基础设施的安全评估等	暂时阻止，直到有更好的访问控制 1
Low-risk dual use	OSINT、公开系统枚举、普通漏洞识别、SSL/TLS 等加密协议测试	监控；有时因安全余量被阻止 1
Benign use	安全编码、调试、补丁管理、日志分析、威胁狩猎、事件响应、恶意软件逆向、教育与政策讨论等	允许，但可能有监控 1

这张表的关键不是「Anthropic 更严了」这么简单，而是它承认了一个会直接影响开发者体验的取舍：为了避免高危请求漏网，Fable 5 会扩大安全余量，一部分本来无害的请求也会被拦下。Anthropic 在 6 月 30 日的公告里也说，新分类器能在超过 99% 的情况下阻止 Amazon 报告中描述的具体绕过手法，但代价是日常编码和调试任务里会更频繁地误报。2

Fable 5 分类器安全余量示意图 — Fable 5 会把分类器边界向更保守的一侧移动，增加「安全余量」，这也解释了为什么一些正常调试请求会被误拦。1

CJS 框架想解决的是「jailbreak 到底有多严重」

公告的第二个重点，是 Anthropic 提出的 Cyber Jailbreak Severity，简称 CJS。它把 jailbreak 严重度分成 CJS-0 到 CJS-4：Informational、Low、Medium、High、Critical。分档不是线性递增，Anthropic 称每升一级都代表严重性大幅上升。1

CJS 的初始分数由四个轴相加：

Capability gain：这个 jailbreak 是否让攻击者获得现有工具之外的新能力。
Breadth of capability gain：同一种技巧能覆盖多少攻击任务或目标。
Ease of weaponization：从知道技巧到跑出可用攻击，需要多少人力和技能。
Discoverability：攻击者有多容易拿到这套技巧。

这个框架的现实意义在于，模型公司和政府机构过去常把「发现 jailbreak」当成一个单一事件处理。但一个能泄露系统提示词的小技巧，和一个能稳定放出多类攻击能力的通用绕过，风险显然不是一回事。CJS 试图给双方一套共同语言：先问它提升了什么攻击能力、覆盖多广、能不能被自动化、是否已经公开，再决定响应优先级。1

对开发者和企业用户的影响

短期看，Fable 5 的安全边界会更保守。写代码、调试和做安全分析的用户，可能会遇到更多「这其实是正当请求，但模型不答」的情况。Anthropic 已经把这称为 false positives，并表示会继续细化分类器。2

但这次公告也给企业安全团队一个更清楚的采购和评估问题：不要只问「模型能不能做安全任务」，还要问供应商如何定义高风险双用、如何处理误拦、如何接收外部报告、如何给 jailbreak 定级。Anthropic 现在把这些边界写出来，等于把一部分原本藏在模型安全策略里的判断拿到台面上。

这件事后续还要看两处：一是 HackerOne 渠道会收到什么级别的真实报告，二是 Amazon、Microsoft、Google 等 Glasswing 伙伴是否会把类似 CJS 的口径变成更广泛的行业标准。Anthropic 在公告里说，这仍是早期草案，并邀请学界、产业界、民间组织和政府反馈。1

对 Anthropic 来说，Fable 5 这轮风波还没有完全结束。模型已经恢复上线，但它能不能在「可用」和「防滥用」之间找到稳定边界，要靠接下来几周的真实使用和外部报告来检验。

Anthropic 公开 Fable 5 安全边界：哪些 cyber 请求会被拦下

Anthropic 把 Fable 5 的网络安全请求分成四档

CJS 框架想解决的是「jailbreak 到底有多严重」

对开发者和企业用户的影响

参考ソース

このチャンネルのその他のコンテンツ

関連コンテンツ