Anthropic 发布 Claude Mythos,因网络安全能力过强拒绝公开

Anthropic 于2026年4月7日发布 Claude Mythos Preview,却没有对外开放。这是首个被公司明确认定「能力超出公开发布门槛」的前沿模型——评估结果是:它在发现软件漏洞上可以超越几乎所有人类安全专家。同时,多家独立机构对部分技术指标的可信度提出了质疑。

研究速览

Anthropic 于 2026 年 4 月 7 日发布了 Claude Mythos Preview,但没有让任何人用它。
这是迄今为止第一个被自家公司明确定性为"能力已超出公开发布门槛"的前沿模型。与其他公司把安全评估当发布前的例行程序不同,Anthropic 这次是评估做完了、技术报告写好了,然后决定:不发布
但"不发布"的定义更接近"受控分发"。Anthropic 同步推出 Project Glasswing,把这个模型部署给 AWS、Apple、Cisco、CrowdStrike、Google、Microsoft、Palo Alto Networks 等安全合作方——用于防御性漏洞扫描,而不是对外商用。

模型到底做了什么

Mythos 的核心能力是代码级漏洞发现和利用链构造,而不是通用推理或多模态。
根据 Anthropic 发布的 244 页 System Card,模型在测试中识别出多个在人工审核和自动化测试中均多次"漏网"的历史漏洞:
  • OpenBSD 中一个存在 27 年的漏洞
  • FreeBSD 中一个存在 17 年的远程代码执行漏洞
  • FFmpeg 中一个存在 16 年的安全缺陷,此前经历了 500 万次自动化测试仍未被发现
英国人工智能安全研究所(AISI)的独立评估将 Mythos 描述为"相较此前前沿模型的阶梯性提升"1:它是第一个能独立完成 32 步"The Last Ones"网络攻击模拟的模型,在专家级 capture-the-flag 任务上达到 73% 成功率2
在与 Mozilla 的合作中,Anthropic 报告称 Mythos 在两周内识别出 22 个 Firefox 漏洞,其中 14 个被 Mozilla 评级为高危3

数字背后的水分

然而,独立技术核查机构对部分数据的解读提出了异议4
**"数千个高危漏洞"**的说法来自营销文案,而非 System Card 研究团队。实际操作是:人工验证了 198 份模型生成的漏洞报告,以小样本 90% 准确率外推全量结论——统计方法本身存在外推偏差。
更关键的是 Firefox 测试的细节:
  • 那次声称实现 72.4% 全代码执行率的测试,实验对象是移除了进程沙箱和深度防御缓解措施的 SpiderMonkey JavaScript shell——不是用户实际使用的 Firefox
  • 所用的两个目标漏洞在测试时已被 Mozilla 在 Firefox 148 中修复
  • 移除这两个已修补漏洞后,成功率跌至 4.4%,与前代 Claude Sonnet 4.6 持平
这个对比很说明问题:在相同测试条件下,宣传的边界能力依赖的是一个非生产环境和两个失效漏洞。
此外,Spiceworks 的分析指出,部分基准测试上的表现与现有开源模型基本相当——"独一无二"的说法并非始终成立。

不发布是一个转折点

技术争议之外,这件事在 AI 发展史上的意义更难被低估。
Anthropic 的核心论断是:前沿模型已经具备可能"超越最顶尖人类专家"的漏洞发现能力,更广泛的访问权限可能对"经济、公共安全和国家安全"造成严重后果5
这不是技术上的不成熟,而是能力上的"过成熟"。
在 AI 行业内,这个决定是罕见的。OpenAI、Google DeepMind 都没有在发布自家前沿模型时公开声称该模型的某个具体能力超过了可接受的公开部署门槛。Anthropic 的声明——无论数字是否有水分——本身把安全讨论推向了一个新位置:不是"是否足够安全以部署",而是"是否应该存在于公开市场中"
英国 CETAS(图灵研究所)的分析6指出,Mythos 更大的系统影响是改变了网络安全的经济结构:漏洞发现从依赖稀缺人才变成可规模化的 AI 任务,攻防不对称可能在短期内向攻击方倾斜——防御方即使扫描速度提升,修补的组织能力跟不上,已知未修补漏洞的积压量可能反而增加。
Project Glasswing 计划承诺 1 亿美元使用额度给防御合作方,并已在开源安全领域开展具体工作。这是一个务实但受限的框架:它保护了有资源加入合作计划的大型机构,但没有解决漏洞修补能力的根本差异,对资源有限的中小型组织和开源基础设施的影响暂无正面回应。

对 AI 研究者的意义

从技术路线角度,Mythos 案例揭示了几个值得持续追踪的变量:
  • 能力边界的评估方法论:如何在不公开模型的情况下完成可信的第三方评估?AISI 的参与模式可能成为先例
  • 基准测试的生态效度问题:72.4% vs 4.4% 的差距提醒我们,基准环境与真实部署环境之间的差距仍可能被系统性忽视
  • 防御性受控部署的边界:Project Glasswing 模式——"发布但不公开"——能否成为高风险能力的长期治理框架,还是只是短期过渡
Anthropic 的 244 页 System Card 目前已开放用于同行评审。
正在加载链接预览…

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。