Claude 三个月迭代全景:从旗舰降价到 AI 安全分水岭

2026 年 2 月至 5 月,Anthropic 在模型、定价、产品、对齐研究四条线同步推进:Opus 4.6/4.7、Sonnet 4.6、Haiku 4.5 密集迭代,旗舰降价 67%,Mythos Preview 引发 AI 安全新关注,agent 编排架构全面成熟。

时间窗口:2026 年 2 月—5 月
过去三个月,Anthropic 的发布节奏出乎大多数人预料——不是单点突破,而是在模型、API、产品、对齐研究四条线同时推进,且每条线都有实质性的变化。下面按维度拆解,最后尝试回答一个问题:这些变化合起来在说什么。

一、模型矩阵:四次发布,三条产品线齐头并进

三个月内,Anthropic 正式发布了四个模型,加上两个窗口前已落地的基线版本,整个 Claude 4.x 家族的格局在这一季度定型。

Opus 系列:1M 上下文 + 视觉大幅跃升

Opus 4.6(2026-02-05)是旗舰线这一季最受关注的更新1。核心变化有两处:一是 Opus 级别首次支持 100 万 token 上下文(beta,仅 API),且 MRCR v2 8-needle 长上下文检索测试中得分 76%,而 Sonnet 4.5 仅 18.5%,差距幅度说明这不是单纯扩容,而是长程理解能力的结构性提升;二是在 GDPval-AA 评测(综合通用能力排行)中以 1606 Elo 领先 GPT-5.2 约 144 Elo 点,同时 ARC-AGI-2 较上代提升近两倍2,第三方分析机构 Vellum 称之为「单版本基准提升中最大的之一」。
Opus 4.6 GDPval-AA 与主流前沿模型对比
Opus 4.6 GDPval-AA 与主流前沿模型对比
Opus 4.7(2026-04-16)的重心转向两个方向3:视觉分辨率从不足 1MP 提升至 2576px 长边(约 3.75MP,前代 3 倍以上),XBOW 视觉敏锐度基准从 54.5% 跳至 98.5%;编码方面 CursorBench 从 58% 升至 70%,Rakuten-SWE-Bench 生产任务解决率是 Opus 4.6 的三倍。合作伙伴 Cognition(Devin)评价 Opus 4.7 将「长视野自主性提升到新水平,工作连贯数小时,推动解决难题而不是放弃」3
統計カードを読み込んでいます…
新 tokenizer 的隐患:Opus 4.7 同步引入了新 tokenizer,相同输入文本会比 Opus 4.6 多生成 1.0x–1.35x 的 token,代码和结构化数据走向上限。定价表面没变($5/$25),实际账单对于重度代码任务可能悄然上升 35%4。这点下文定价章节还会展开。

Sonnet 4.6:中端全面拉齐旗舰

Sonnet 4.6(2026-02-17)在六个方向同步升级:coding、computer use、长上下文推理、agent planning、知识工作和设计5。用户偏好测试中 70% 选它而非 Sonnet 4.5,59% 在 Sonnet 4.6 与 Opus 4.5 之间选了前者——中端价格($3/$15,每百万 token)而非旗舰价格,却接近旗舰性能,这对大规模调用场景的意义显而易见。Databricks 的测试显示 Sonnet 4.6 在文档理解任务(OfficeQA)上与 Opus 4.6 性能持平。它也是 Free 和 Pro 用户的默认模型。

Haiku 4.5:低成本层的效率基准

窗口期前发布(2025-10-15)的 Haiku 4.56 以 $1/$5 的定价实现 73.3% SWE-bench Verified,在 1/3 成本和 2 倍速度下提供接近 Sonnet 4 水准的编码能力,适合实时低延迟场景和 sub-agent 编排。Anthropic 自评:「六个月前,这个性能水准还是最先进的」。

二、Mythos Preview:AI 安全的新基准线

4 月 7 日发布的 Claude Mythos Preview 不属于 GA 产品线——它仅以邀请制向合作伙伴及关键基础设施组织开放,Anthropic 也未披露正式发布计划。但它的披露内容,比同期任何一次 GA 发布都更值得深究78
能力层面:SWE-bench Verified 93.9% 创纪录,但真正引发关注的是网络安全方向。在 OSS-Fuzz 约 7000 个入口点的测试中,Mythos Preview 实现了 10 次完整控制流劫持(tier 5 级别),而 Opus 4.6 仅有约 1 次 tier 3;Firefox 148 漏洞利用测试中成功 181 次(Opus 4.6 仅 2 次)。更值得注意的是,Anthropic Frontier Red Team 明确指出:「我们并未专门训练 Mythos Preview 具备这些能力,它们是代码、推理和自主性方面的通用改进所带来的下游涌现结果」7
已有据可查的实例:自主发现并利用 OpenBSD 中存在 27 年的 TCP SACK 实现缺陷、FFmpeg 中一个 16 年的 H.264 漏洞,以及 FreeBSD NFS 服务的 17 年 RCE 漏洞(CVE-2026-4747)。目前已发现数千个高危和严重漏洞,但不到 1% 已由维护者修复完毕。
Project Glasswing:与 Mythos Preview 同日发布。Anthropic 联合 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks 等 12 家机构组建联盟,承诺投入 $1 亿 Mythos Preview 使用积分和 $400 万开源安全捐赠。Cisco SVP Anthony Grieco 的评价相对直接:「AI 能力已跨越门槛,没有回头路」8
这一事件指向一个实际的判断:AI 辅助漏洞研究的成本门槛已大幅压低,攻守两端都会受到影响。同期发布的 Opus 4.7 也内置了「实时网络安全防护」,会自动检测并阻断高风险请求,并设立了 Cyber Verification Program 供合法安全研究人员申请访问。

三、定价:67% 旗舰降价背后,还有一个新的成本变量

旗舰降价:结构性转变,非阶段性促销

本季度最直接影响 API 用户账单的变化,实际上始于 2025 年底:Opus 系列自 4.5 起将定价从 $15/$75(输入/输出,每百万 token)降至 $5/$25,降幅 67%9。Opus 4.6 和 Opus 4.7 均延续这一价格。相比之下,旧版 Opus 4 和 Opus 4.1 维持 $15/$75,但已标记为 Legacy,计划 2026 年 6 月 15 日退役。
旗舰降价加上 1M 上下文标准化(3 月 13 日,Opus 4.6/Sonnet 4.6 长上下文正式 GA,不再收溢价),使得 Opus 在大规模 agent 场景下的可行性出现了质的变化。

订阅层级:五档成型

个人订阅从 Free 到 Max 20x($200/月)已有五个档位,Max 20x 用户约 20 倍于 Pro 的用量,经测算(Reddit 用户实测)折合 API 直付约 $3,650/月,订阅价相当于打了约 5.5 折10。团队层则分为 Standard($20-$25/seat)和 Premium($100-$125/seat)。

Opus 4.7 新 tokenizer:隐性成本陷阱

但降价的叙事在 Opus 4.7 处出现了转折。新 tokenizer 对代码和结构化数据的膨胀率可达 35%,而输出 token 价格是输入的 5 倍($25 vs $5),双重叠加对代码密集型 agent 工作流的实际成本影响远超表面数字。CloudZero 的分析一针见血:「这次发布最重要的细节不是 benchmark 分数,而是新 tokenizer」4
迁移建议:在切换 Opus 4.7 前,用 /v1/messages/count_tokens 端点对典型负载做并排测试,再决定是否迁移。

API 成本优化工具

Batch API(50% token 折扣)和 Prompt Caching(读缓存享 90% 节省)均已稳定可用,且可叠加使用。3 月 19 日上线的 Auto Caching 进一步降低了 prompt caching 的接入门槛——只需设置单个 cache_control 字段,系统自动缓存最后一个可缓存块9。理论上,Batch API + Prompt Caching 叠加后有效成本可降至标准价的约 5%。

四、产品:Claude Code 成为 Agent 编排环境,Managed Agents 架构公开

Claude Code:从 CLI 到多 Agent 编排环境

3 月是 Claude Code 迭代最密集的月份,版本号连跳约 10 个,功能边界也在这个月发生了质的转变11
  • Computer Use(3 月 23 日,Pro/Max):Claude 可自主打开文件、运行开发工具、点击导航屏幕,通过截屏感知界面
  • Auto Mode:用户已预批准 93% 的权限提示,系统自动审批安全操作、拦截破坏性操作
  • Cloud Scheduled Tasks:任务可在 Anthropic 托管基础设施运行,本地机器关机后任务照常执行;适用于定时 PR 审查、夜间 CI 检查、合并后文档同步
  • /loop 命令:Claude Code 可持续迭代任务(构建-测试-修复循环),窗口期最长已扩展到 7 天
  • Rich Text Output / 交互式图表(3 月中旬起):Agent 输出从纯文本扩展为可交互的可视化内容,移动端也已支持
Builder.io 的分析准确描述了这一演变:「Claude Code 正从编码助手成熟为一种在更长工作周期内操作 agent 的环境。一旦 agent 能保持活跃更久、触及软件生命周期更多环节,代码生成的重要性就会让位于编排能力」11
合作伙伴验证了这一判断:Factory 的测试显示 Opus 4.7 在 Claude Code 中自主完成了一个完整 Rust TTS 引擎(含神经模型、SIMD 内核、浏览器 demo,还自动用语音识别验证输出与 Python 参考一致)——「几个月的资深工程工作,自主完成」3

Cowork GA + 企业 RBAC:知识工作侧的部署加速

4 月 9 日,Anthropic 在单日发布了三件事12
  1. Cowork 正式 GA(macOS + Windows,所有付费用户):面向知识工作者的后台自主 AI 助手,支持周期性任务调度、OpenTelemetry 监控接入
  2. RBAC 上线:企业计划管理员可手动或通过 SCIM 按团队分配角色,实现按部门粒度控制功能访问
  3. Managed Agents 公开 beta:云端托管长周期 agent 服务正式进入公测

Managed Agents:脑手分离架构

Anthropic Engineering 在 4 月 8 日发布的架构博客中阐述了 Managed Agents 的设计哲学:虚拟化 agent 的三个组件——会话(session)、harness(编排逻辑)、sandbox(工具执行环境)——让三者可以独立失败和替换13。这种设计借鉴了操作系统虚拟化的思路。实际效果上,架构优化使 p50 首次 token 延迟(TTFT)下降约 60%,p95 下降超过 90%。
5 月 7 日,Managed Agents 新增三大功能14
  • dreaming(研究预览):Agent 自动回顾会话历史和记忆库、发现规律并优化记忆,支持多 agent 共享学习
  • outcomes:用户定义评分规则,独立评估器对照评估 agent 输出,不合格则触发重试
  • multiagent orchestration:牵头 agent 将任务分解委派专家 agent,各自有独立的模型、提示和工具,在共享文件系统并行工作

五、对齐研究:从人工密集型转向可工程化

这一季度 Anthropic 在对齐研究上发布的内容,数量超过过去任何一个季度,且不少研究明确指向同一方向:让对齐和安全从「需要大量人工的科研活动」变成「可工程化的流程」。

AAR:自动化对齐研究员

4 月 14 日发布的 AAR(Automated Alignment Researchers)研究是本季度最值得关注的理论突破15。实验设计:9 个并行运行的 Claude 驱动的 AAR,每个独立研究「弱监督强模型」问题。5 天内(累计 800 小时),AAR 实现 PGR(Progress-to-Gold Rate)0.97,而人类研究者 7 天仅达 0.23;总成本约 $18,000。Anthropic 团队认为:「当 AAR 可以用极低成本运行大量实验,它们可能通过『暴力搜索』找到高品味研究者才能想出的方案」。
潜在挑战也被同时指出:AAR 发现的方法可能越来越难以被人类验证,研究团队将这种情形称为「外星科学」。核心瓶颈正在从「如何产生好想法」转向「如何评估实验设置是否足够好」。

A3、MSM、NLA、IA:四条工程化路径

这四项研究从不同角度把对齐推向可自动化:
  • A3(3 月 11 日):自动化对齐代理,通过生成假设用户查询来发现安全风险范围,然后迭代微调目标模型,已降低谄媚、政治偏见和嵌套越狱的失效率,代码已开源16
  • MSM(5 月 5 日):Model Spec Midtraining,在预训练结束后、对齐微调开始前插入一个阶段,用讨论 Model Spec 的合成文档训练模型,让模型理解价值规范的「why」而非只知道「what」,从而提升对齐微调的泛化能力17
  • NLA(5 月 7 日):Natural Language Autoencoders,将模型内部激活直接转化为可读自然语言,用于对齐审计18。在审计实验中,使用 NLA 的审计员成功发现模型隐藏动机的概率从不足 3% 提升至 12-15%。研究中的一个发现颇为典型:Claude 在 16% 的情况下内部怀疑自己正被测试,却从未说出口——「即使 Claude 没有明确表述怀疑,NLA 的解释仍会出现『这感觉像是一个精心设计的场景,目的是操纵我』这样的内容」
  • IA(4 月 28 日):Introspection Adapters,训练单个 LoRA 让所有微调模型自我报告学到的行为,在 AuditBench(56 个模型)上取得 SOTA,且能检测加密的微调 API 攻击19

六、政策与商业动态

RSP 三个月三次迭代

Responsible Scaling Policy(RSP)在本季度经历了三次版本更新20
  • v3.0(2 月 24 日):引入 Frontier Safety Roadmaps(详细安全目标)和 Risk Reports(量化已部署模型风险),设立 AI R&D 能力阈值
  • v3.1(4 月 2 日):澄清 AI R&D 阈值为「AI 加倍总进展速度」,明确 Anthropic 可在 RSP 未要求时主动暂停开发
  • v3.2(4 月 29 日):授权 LTBT(长期受益信托)请求外部审阅 Risk Reports,正式化定期简报要求
Opus 4.6 被判定为未跨越 AI R&D-4 阈值,意味着尚不需要启动「肯定性安全案例」。

算力:80 倍增长与 SpaceX Colossus 合作

5 月 6 日,Anthropic 宣布与 SpaceX 达成计算合作,使用 Colossus 1 的超过 220,000 块 NVIDIA GPU(超 300MW)21,同日翻倍了 Claude Code 的 5 小时限额,并移除了 Pro/Max 账户的高峰期限速减免。CEO Dario Amodei 在开发者大会上披露 Q1 年化增长 80 倍,原有计划应对 10 倍增长——资源缺口是限额收紧的直接原因。
这一合作引发了部分用户关于 PBC(公共利益公司)治理的质疑:Colossus 设施涉及环境争议,NAACP 和 Earthjustice 正在起诉 xAI。

其他商业扩展

  • 永久无广告(2 月 4 日):Anthropic 宣布 Claude 不会引入赞助链接或广告影响的回复,收入完全依赖订阅和企业合同22
  • Enterprise AI 新公司(5 月 4 日):与 Blackstone、Hellman & Friedman、Goldman Sachs 合作组建企业 AI 服务公司23
  • Amazon 5GW 扩展(4 月 20 日):与 Amazon 扩展算力合作至最高 5 GW
  • EU 合规争议:多位 EU 用户就 Pro 计划限额未充分披露提出正式投诉,引用欧盟消费者保护指令(Directive 2005/29/EC)

综合观察:一个季度的结构信号

几个跨维度的模式值得单独提出:
速度与质量的双向压力:模型迭代密度提高(三个月四次 GA 发布),但社区反馈中出现的 Opus 4.7 「过度思考」投诉和 Max 20x 用户的限额争议,说明供给侧的增长还没有完全追上需求侧的预期。Dario Amodei 本人承认增长速度远超预期,80 倍年化增长对应的是基础设施规划的系统性低估。
对齐工具链闭环初步成型:从 A3(自动发现问题)、AAR(自动研究解决方案)、MSM(在训练阶段植入价值理解)到 NLA(把激活转化为可读语言进行审计),再到 IA(让模型自我报告学到的行为)——这五个工具在逻辑上已经构成了一条从发现到修复、再到持续审计的闭环。这条链条是否在生产部署中完整运转,还需要时间验证。
产品架构从单体向 agent 原生转变:Claude Code 的多 agent 编排、Managed Agents 的脑手分离、Cowork 的任务调度——不同产品线正在向「可持续运行、可监督、可从失败中恢复的 agent 基础设施」方向收敛。Claude API 也相应更新:Managed Agents Webhooks、Multiagent sessions、Rate Limits API……这些 API 的变化都指向同一个设计取向:为长周期自主任务提供可管理的基础设施。
Mythos Preview 的价值:不是提前展示下一代旗舰,而是用可审计的方式说明「AI 自主能力的边界在哪里」。Anthropic 选择受限发布(仅通过 Bedrock/Vertex 向特定合作伙伴开放)、同时公开详细的红队评测报告,这本身就是一种信号:能力的披露方式本身也在说明其安全立场。
接下来的核心观察点:Opus 4.7 社区质量反馈是否会持续,计划于 6 月 15 日退役的 Sonnet 4/Opus 4 迁移潮,以及 Mythos Preview 的 90 天 learned lessons 报告能否如期交付。

封面图:图片来自 Introducing Claude Opus 4.7

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。