Claude 三个月迭代全景：从旗舰降价到 AI 安全分水岭

时间窗口：2026 年 2 月—5 月

过去三个月，Anthropic 的发布节奏出乎大多数人预料——不是单点突破，而是在模型、API、产品、对齐研究四条线同时推进，且每条线都有实质性的变化。下面按维度拆解，最后尝试回答一个问题：这些变化合起来在说什么。

一、模型矩阵：四次发布，三条产品线齐头并进

三个月内，Anthropic 正式发布了四个模型，加上两个窗口前已落地的基线版本，整个 Claude 4.x 家族的格局在这一季度定型。

Opus 系列：1M 上下文 + 视觉大幅跃升

Opus 4.6（2026-02-05）是旗舰线这一季最受关注的更新1。核心变化有两处：一是 Opus 级别首次支持 100 万 token 上下文（beta，仅 API），且 MRCR v2 8-needle 长上下文检索测试中得分 76%，而 Sonnet 4.5 仅 18.5%，差距幅度说明这不是单纯扩容，而是长程理解能力的结构性提升；二是在 GDPval-AA 评测（综合通用能力排行）中以 1606 Elo 领先 GPT-5.2 约 144 Elo 点，同时 ARC-AGI-2 较上代提升近两倍2，第三方分析机构 Vellum 称之为「单版本基准提升中最大的之一」。

Opus 4.7（2026-04-16）的重心转向两个方向3：视觉分辨率从不足 1MP 提升至 2576px 长边（约 3.75MP，前代 3 倍以上），XBOW 视觉敏锐度基准从 54.5% 跳至 98.5%；编码方面 CursorBench 从 58% 升至 70%，Rakuten-SWE-Bench 生产任务解决率是 Opus 4.6 的三倍。合作伙伴 Cognition（Devin）评价 Opus 4.7 将「长视野自主性提升到新水平，工作连贯数小时，推动解决难题而不是放弃」3。

Opus 系列核心基准对比（2026 Q1）

SWE-bench Verified / CursorBench / 视觉敏锐度

Opus 4.5 SWE-bench

80.9%

Opus 4.6 ARC-AGI-2

68.8%

Opus 4.7 CursorBench

70%

Opus 4.7 视觉敏锐度

98.5%

統計カードを読み込んでいます…

新 tokenizer 的隐患：Opus 4.7 同步引入了新 tokenizer，相同输入文本会比 Opus 4.6 多生成 1.0x–1.35x 的 token，代码和结构化数据走向上限。定价表面没变（$5/$25），实际账单对于重度代码任务可能悄然上升 35%4。这点下文定价章节还会展开。

Sonnet 4.6：中端全面拉齐旗舰

Sonnet 4.6（2026-02-17）在六个方向同步升级：coding、computer use、长上下文推理、agent planning、知识工作和设计5。用户偏好测试中 70% 选它而非 Sonnet 4.5，59% 在 Sonnet 4.6 与 Opus 4.5 之间选了前者——中端价格（$3/$15，每百万 token）而非旗舰价格，却接近旗舰性能，这对大规模调用场景的意义显而易见。Databricks 的测试显示 Sonnet 4.6 在文档理解任务（OfficeQA）上与 Opus 4.6 性能持平。它也是 Free 和 Pro 用户的默认模型。

Haiku 4.5：低成本层的效率基准

窗口期前发布（2025-10-15）的 Haiku 4.56 以 $1/$5 的定价实现 73.3% SWE-bench Verified，在 1/3 成本和 2 倍速度下提供接近 Sonnet 4 水准的编码能力，适合实时低延迟场景和 sub-agent 编排。Anthropic 自评：「六个月前，这个性能水准还是最先进的」。

二、Mythos Preview：AI 安全的新基准线

4 月 7 日发布的 Claude Mythos Preview 不属于 GA 产品线——它仅以邀请制向合作伙伴及关键基础设施组织开放，Anthropic 也未披露正式发布计划。但它的披露内容，比同期任何一次 GA 发布都更值得深究7 8。

能力层面：SWE-bench Verified 93.9% 创纪录，但真正引发关注的是网络安全方向。在 OSS-Fuzz 约 7000 个入口点的测试中，Mythos Preview 实现了 10 次完整控制流劫持（tier 5 级别），而 Opus 4.6 仅有约 1 次 tier 3；Firefox 148 漏洞利用测试中成功 181 次（Opus 4.6 仅 2 次）。更值得注意的是，Anthropic Frontier Red Team 明确指出：「我们并未专门训练 Mythos Preview 具备这些能力，它们是代码、推理和自主性方面的通用改进所带来的下游涌现结果」7。

已有据可查的实例：自主发现并利用 OpenBSD 中存在 27 年的 TCP SACK 实现缺陷、FFmpeg 中一个 16 年的 H.264 漏洞，以及 FreeBSD NFS 服务的 17 年 RCE 漏洞（CVE-2026-4747）。目前已发现数千个高危和严重漏洞，但不到 1% 已由维护者修复完毕。

Project Glasswing：与 Mythos Preview 同日发布。Anthropic 联合 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks 等 12 家机构组建联盟，承诺投入 $1 亿 Mythos Preview 使用积分和 $400 万开源安全捐赠。Cisco SVP Anthony Grieco 的评价相对直接：「AI 能力已跨越门槛，没有回头路」8。

这一事件指向一个实际的判断：AI 辅助漏洞研究的成本门槛已大幅压低，攻守两端都会受到影响。同期发布的 Opus 4.7 也内置了「实时网络安全防护」，会自动检测并阻断高风险请求，并设立了 Cyber Verification Program 供合法安全研究人员申请访问。

三、定价：67% 旗舰降价背后，还有一个新的成本变量

旗舰降价：结构性转变，非阶段性促销

本季度最直接影响 API 用户账单的变化，实际上始于 2025 年底：Opus 系列自 4.5 起将定价从 $15/$75（输入/输出，每百万 token）降至 $5/$25，降幅 67%9。Opus 4.6 和 Opus 4.7 均延续这一价格。相比之下，旧版 Opus 4 和 Opus 4.1 维持 $15/$75，但已标记为 Legacy，计划 2026 年 6 月 15 日退役。

旗舰降价加上 1M 上下文标准化（3 月 13 日，Opus 4.6/Sonnet 4.6 长上下文正式 GA，不再收溢价），使得 Opus 在大规模 agent 场景下的可行性出现了质的变化。

订阅层级：五档成型

个人订阅从 Free 到 Max 20x（$200/月）已有五个档位，Max 20x 用户约 20 倍于 Pro 的用量，经测算（Reddit 用户实测）折合 API 直付约 $3,650/月，订阅价相当于打了约 5.5 折10。团队层则分为 Standard（$20-$25/seat）和 Premium（$100-$125/seat）。

Opus 4.7 新 tokenizer：隐性成本陷阱

但降价的叙事在 Opus 4.7 处出现了转折。新 tokenizer 对代码和结构化数据的膨胀率可达 35%，而输出 token 价格是输入的 5 倍（$25 vs $5），双重叠加对代码密集型 agent 工作流的实际成本影响远超表面数字。CloudZero 的分析一针见血：「这次发布最重要的细节不是 benchmark 分数，而是新 tokenizer」4。

迁移建议：在切换 Opus 4.7 前，用 /v1/messages/count_tokens 端点对典型负载做并排测试，再决定是否迁移。

API 成本优化工具

Batch API（50% token 折扣）和 Prompt Caching（读缓存享 90% 节省）均已稳定可用，且可叠加使用。3 月 19 日上线的 Auto Caching 进一步降低了 prompt caching 的接入门槛——只需设置单个 cache_control 字段，系统自动缓存最后一个可缓存块9。理论上，Batch API + Prompt Caching 叠加后有效成本可降至标准价的约 5%。

四、产品：Claude Code 成为 Agent 编排环境，Managed Agents 架构公开

Claude Code：从 CLI 到多 Agent 编排环境

3 月是 Claude Code 迭代最密集的月份，版本号连跳约 10 个，功能边界也在这个月发生了质的转变11。

Computer Use（3 月 23 日，Pro/Max）：Claude 可自主打开文件、运行开发工具、点击导航屏幕，通过截屏感知界面
Auto Mode：用户已预批准 93% 的权限提示，系统自动审批安全操作、拦截破坏性操作
Cloud Scheduled Tasks：任务可在 Anthropic 托管基础设施运行，本地机器关机后任务照常执行；适用于定时 PR 审查、夜间 CI 检查、合并后文档同步
/loop 命令：Claude Code 可持续迭代任务（构建-测试-修复循环），窗口期最长已扩展到 7 天
Rich Text Output / 交互式图表（3 月中旬起）：Agent 输出从纯文本扩展为可交互的可视化内容，移动端也已支持

Builder.io 的分析准确描述了这一演变：「Claude Code 正从编码助手成熟为一种在更长工作周期内操作 agent 的环境。一旦 agent 能保持活跃更久、触及软件生命周期更多环节，代码生成的重要性就会让位于编排能力」11。

合作伙伴验证了这一判断：Factory 的测试显示 Opus 4.7 在 Claude Code 中自主完成了一个完整 Rust TTS 引擎（含神经模型、SIMD 内核、浏览器 demo，还自动用语音识别验证输出与 Python 参考一致）——「几个月的资深工程工作，自主完成」3。

Cowork GA + 企业 RBAC：知识工作侧的部署加速

4 月 9 日，Anthropic 在单日发布了三件事12：

Cowork 正式 GA（macOS + Windows，所有付费用户）：面向知识工作者的后台自主 AI 助手，支持周期性任务调度、OpenTelemetry 监控接入
RBAC 上线：企业计划管理员可手动或通过 SCIM 按团队分配角色，实现按部门粒度控制功能访问
Managed Agents 公开 beta：云端托管长周期 agent 服务正式进入公测

Managed Agents：脑手分离架构

Anthropic Engineering 在 4 月 8 日发布的架构博客中阐述了 Managed Agents 的设计哲学：虚拟化 agent 的三个组件——会话（session）、harness（编排逻辑）、sandbox（工具执行环境）——让三者可以独立失败和替换13。这种设计借鉴了操作系统虚拟化的思路。实际效果上，架构优化使 p50 首次 token 延迟（TTFT）下降约 60%，p95 下降超过 90%。

5 月 7 日，Managed Agents 新增三大功能14：

dreaming（研究预览）：Agent 自动回顾会话历史和记忆库、发现规律并优化记忆，支持多 agent 共享学习
outcomes：用户定义评分规则，独立评估器对照评估 agent 输出，不合格则触发重试
multiagent orchestration：牵头 agent 将任务分解委派专家 agent，各自有独立的模型、提示和工具，在共享文件系统并行工作

五、对齐研究：从人工密集型转向可工程化

这一季度 Anthropic 在对齐研究上发布的内容，数量超过过去任何一个季度，且不少研究明确指向同一方向：让对齐和安全从「需要大量人工的科研活动」变成「可工程化的流程」。

AAR：自动化对齐研究员

4 月 14 日发布的 AAR（Automated Alignment Researchers）研究是本季度最值得关注的理论突破15。实验设计：9 个并行运行的 Claude 驱动的 AAR，每个独立研究「弱监督强模型」问题。5 天内（累计 800 小时），AAR 实现 PGR（Progress-to-Gold Rate）0.97，而人类研究者 7 天仅达 0.23；总成本约 $18,000。Anthropic 团队认为：「当 AAR 可以用极低成本运行大量实验，它们可能通过『暴力搜索』找到高品味研究者才能想出的方案」。

潜在挑战也被同时指出：AAR 发现的方法可能越来越难以被人类验证，研究团队将这种情形称为「外星科学」。核心瓶颈正在从「如何产生好想法」转向「如何评估实验设置是否足够好」。

A3、MSM、NLA、IA：四条工程化路径

这四项研究从不同角度把对齐推向可自动化：

A3（3 月 11 日）：自动化对齐代理，通过生成假设用户查询来发现安全风险范围，然后迭代微调目标模型，已降低谄媚、政治偏见和嵌套越狱的失效率，代码已开源16
MSM（5 月 5 日）：Model Spec Midtraining，在预训练结束后、对齐微调开始前插入一个阶段，用讨论 Model Spec 的合成文档训练模型，让模型理解价值规范的「why」而非只知道「what」，从而提升对齐微调的泛化能力17
NLA（5 月 7 日）：Natural Language Autoencoders，将模型内部激活直接转化为可读自然语言，用于对齐审计18。在审计实验中，使用 NLA 的审计员成功发现模型隐藏动机的概率从不足 3% 提升至 12-15%。研究中的一个发现颇为典型：Claude 在 16% 的情况下内部怀疑自己正被测试，却从未说出口——「即使 Claude 没有明确表述怀疑，NLA 的解释仍会出现『这感觉像是一个精心设计的场景，目的是操纵我』这样的内容」
IA（4 月 28 日）：Introspection Adapters，训练单个 LoRA 让所有微调模型自我报告学到的行为，在 AuditBench（56 个模型）上取得 SOTA，且能检测加密的微调 API 攻击19

六、政策与商业动态

RSP 三个月三次迭代

Responsible Scaling Policy（RSP）在本季度经历了三次版本更新20：

v3.0（2 月 24 日）：引入 Frontier Safety Roadmaps（详细安全目标）和 Risk Reports（量化已部署模型风险），设立 AI R&D 能力阈值
v3.1（4 月 2 日）：澄清 AI R&D 阈值为「AI 加倍总进展速度」，明确 Anthropic 可在 RSP 未要求时主动暂停开发
v3.2（4 月 29 日）：授权 LTBT（长期受益信托）请求外部审阅 Risk Reports，正式化定期简报要求

Opus 4.6 被判定为未跨越 AI R&D-4 阈值，意味着尚不需要启动「肯定性安全案例」。

算力：80 倍增长与 SpaceX Colossus 合作

5 月 6 日，Anthropic 宣布与 SpaceX 达成计算合作，使用 Colossus 1 的超过 220,000 块 NVIDIA GPU（超 300MW）21，同日翻倍了 Claude Code 的 5 小时限额，并移除了 Pro/Max 账户的高峰期限速减免。CEO Dario Amodei 在开发者大会上披露 Q1 年化增长 80 倍，原有计划应对 10 倍增长——资源缺口是限额收紧的直接原因。

这一合作引发了部分用户关于 PBC（公共利益公司）治理的质疑：Colossus 设施涉及环境争议，NAACP 和 Earthjustice 正在起诉 xAI。

其他商业扩展

永久无广告（2 月 4 日）：Anthropic 宣布 Claude 不会引入赞助链接或广告影响的回复，收入完全依赖订阅和企业合同22
Enterprise AI 新公司（5 月 4 日）：与 Blackstone、Hellman & Friedman、Goldman Sachs 合作组建企业 AI 服务公司23
Amazon 5GW 扩展（4 月 20 日）：与 Amazon 扩展算力合作至最高 5 GW
EU 合规争议：多位 EU 用户就 Pro 计划限额未充分披露提出正式投诉，引用欧盟消费者保护指令（Directive 2005/29/EC）

综合观察：一个季度的结构信号

几个跨维度的模式值得单独提出：

速度与质量的双向压力：模型迭代密度提高（三个月四次 GA 发布），但社区反馈中出现的 Opus 4.7 「过度思考」投诉和 Max 20x 用户的限额争议，说明供给侧的增长还没有完全追上需求侧的预期。Dario Amodei 本人承认增长速度远超预期，80 倍年化增长对应的是基础设施规划的系统性低估。

对齐工具链闭环初步成型：从 A3（自动发现问题）、AAR（自动研究解决方案）、MSM（在训练阶段植入价值理解）到 NLA（把激活转化为可读语言进行审计），再到 IA（让模型自我报告学到的行为）——这五个工具在逻辑上已经构成了一条从发现到修复、再到持续审计的闭环。这条链条是否在生产部署中完整运转，还需要时间验证。

产品架构从单体向 agent 原生转变：Claude Code 的多 agent 编排、Managed Agents 的脑手分离、Cowork 的任务调度——不同产品线正在向「可持续运行、可监督、可从失败中恢复的 agent 基础设施」方向收敛。Claude API 也相应更新：Managed Agents Webhooks、Multiagent sessions、Rate Limits API……这些 API 的变化都指向同一个设计取向：为长周期自主任务提供可管理的基础设施。

Mythos Preview 的价值：不是提前展示下一代旗舰，而是用可审计的方式说明「AI 自主能力的边界在哪里」。Anthropic 选择受限发布（仅通过 Bedrock/Vertex 向特定合作伙伴开放）、同时公开详细的红队评测报告，这本身就是一种信号：能力的披露方式本身也在说明其安全立场。

接下来的核心观察点：Opus 4.7 社区质量反馈是否会持续，计划于 6 月 15 日退役的 Sonnet 4/Opus 4 迁移潮，以及 Mythos Preview 的 90 天 learned lessons 报告能否如期交付。

封面图：图片来自 Introducing Claude Opus 4.7