Claude Sonnet 5 发布：接近 Opus 4.8 的代理能力，但价格更低 (2026)

Sonnet 5 的定位很直接：把原来常常要上 Opus 才放心交给模型的长链路代理任务，尽量下放到 Sonnet 的价格带。Anthropic 在 2026 年 6 月 30 日发布 Claude Sonnet 5，称它是「most agentic Sonnet model yet」，并且从当天起在 Claude 各计划、Claude Code 和 Claude Platform 上线。1

如果你正在用 Sonnet 4.6 跑代码代理、浏览器代理、知识工作自动化，Sonnet 5 值得尽快做一次灰度评估。它的吸引力不在于单项 benchmark 冲到第一，而在于：能力接近 Opus 4.8，常规价格仍低于 Opus 4.8，首发期价格还要再低一档。1

一句话判断

Claude Sonnet 5 是 Anthropic 给「高频代理任务」准备的主力模型：比 Sonnet 4.6 更能跟完多步任务，成本低于 Opus 4.8，但在最复杂推理、低护栏网络安全任务、以及对错误容忍度很低的生产链路里，Opus 4.8 仍然更稳。Anthropic 自己也把 Opus 4.8 放在「most complex tasks」的首选位置，而把 Sonnet 5 定位成速度、智能与成本之间的平衡点。2

关键参数：1M 上下文、128k 输出，Sonnet 档价格

维度	Claude Sonnet 5	对开发者的含义
API ID	`claude-sonnet-5`2	可以直接在 Claude API 中切换模型 ID 做灰度。
上下文窗口	1M tokens2	更适合把代码库、长文档、工单历史一起塞进任务上下文，但不等于可以不做检索和压缩。
同步最大输出	128k tokens2	长报告、代码修改说明、批量转换任务更少撞输出上限。
价格	首发至 2026 年 8 月 31 日为每百万输入 tokens 2 美元、输出 tokens 10 美元；之后为 3 美元 / 15 美元1	首发期适合把现有 Sonnet 4.6 工作流拿来跑对照测试，过了首发期再按标准价重算账。
思考能力	不支持 extended thinking，支持 adaptive thinking2	如果你依赖显式 extended thinking 配置，要先确认调用方式是否需要改。
默认 effort	Claude API 和 Claude Code 默认 high2	成本测试不能只换 model ID，还要把 effort level 一起纳入变量。

这里有一个容易被忽略的成本细节：Anthropic 说 Sonnet 5 使用了更新后的 tokenizer，同一段输入可能映射成更多 tokens，幅度大约是 1.0 到 1.35 倍，取决于内容类型。它把首发价设低，是为了让迁移期大致保持成本中性。1 也就是说，别只看单价下降，最好拿你自己的真实 prompt 和日志重新算一遍 token 账。

能力变化：重点不是「聪明一点」，而是「能把事做完」

Anthropic 对 Sonnet 5 的叙述集中在 agentic performance，也就是模型能不能制定计划、调用工具、检查中间结果、把一个多步任务跑到底。官方对比中，Sonnet 5 在 SWE-bench Pro、Terminal-Bench 2.1、Humanity’s Last Exam、OSWorld-Verified 和 GDPval-AA v2 上都高于 Sonnet 4.6，并在部分指标上接近 Opus 4.8。1

Claude Sonnet 5 官方基准对比表 — 官方基准表显示，Sonnet 5 在多项 coding、computer use 和知识工作评测上高于 Sonnet 4.6，并接近 Opus 4.8。1

几个数字能说明它的变化方向：SWE-bench Pro 从 Sonnet 4.6 的 58.1% 升到 63.2%；Terminal-Bench 2.1 从 67.0% 升到 80.4%；OSWorld-Verified 从 78.5% 升到 81.2%；GDPval-AA v2 从 1395 升到 1618，甚至略高于官方表中 Opus 4.8 的 1615。1

但这不是「Sonnet 已经全面替代 Opus」的信号。Opus 4.8 在 SWE-bench Pro、Humanity’s Last Exam、OSWorld-Verified 等指标上仍然领先，官方文档也继续建议在最复杂任务上从 Opus 4.8 开始。2 更合理的判断是：Sonnet 5 把很多原本需要 Opus 兜底的中高难度任务，推到了可以先用 Sonnet 尝试的区间。

与 Sonnet 4.6、Opus 4.8 怎么分工

任务类型	更适合先试 Sonnet 5	仍建议优先 Opus 4.8
日常代码代理	修 bug、补测试、跑 lint、跨文件小重构；官方早期用户反馈集中在持续编码、工具使用和调试。1	大规模架构改造、长时间自主执行、失败代价很高的代码迁移。
浏览器 / 电脑操作	需要在既有系统里按步骤完成表单、检索、数据录入；Sonnet 5 在 OSWorld-Verified 上高于 Sonnet 4.6。1	流程分支极多、一次误操作会造成资金或合规风险的场景。
知识工作	文档分析、复杂信息整理、销售或运营自动化；官方把它描述为专业工作场景中的高性价比选择。1	需要更强综合推理、长期规划和低幻觉率的决策辅助。
网络安全	常规、无害的安全分析任务可以测试，但要接受默认 cyber safeguards。1	Anthropic 明确建议：需要 reduced guardrails 的网络安全工作，优先用 Claude Opus 4.8。1

开发者真正要看的不是「哪一个模型最好」，而是「哪个模型在我的任务里每美元完成更多可验收的工作」。Sonnet 5 的 medium / high effort 可能会成为新默认；xhigh 或 Opus 4.8 则留给少数难题。

安全与限制：更稳，但不是低风险模型

Anthropic 说，Sonnet 5 的预部署安全评估总体优于 Sonnet 4.6：更能拒绝恶意请求，更能抵抗提示注入劫持，幻觉和 sycophancy 率也低于 Sonnet 4.6。1 Sycophancy 可以理解成模型过度迎合用户，即使用户的前提有问题也顺着说。

限制同样写得很清楚。Sonnet 5 在自动化行为审计中的 misaligned behavior 率低于 Sonnet 4.6，但高于 Mythos Preview 和 Opus 4.8；它在网络安全能力上弱于 Opus 4.8 和 Mythos 5，不过因为比 Sonnet 4.6 更强，Anthropic 仍然默认启用了实时 cyber safeguards。1

这意味着两件事。第一，做普通代码和业务代理时，Sonnet 5 的安全边际比 Sonnet 4.6 更好。第二，如果你的产品本来就涉及攻防、安全研究或高风险自动执行，不要把「Sonnet 档」误读成「低风险」。

迁移建议：先灰度，不要全量替换

如果你已经在生产里跑 Sonnet 4.6，可以按这个顺序试 Sonnet 5：

先复制真实流量样本。 用过去一两周的失败案例、超时案例和人工接管案例做回放，不要只跑标准 demo。
同时记录 tokens 和 effort。 Sonnet 5 的 tokenizer 会改变 token 计数，默认 effort 也可能改变成本曲线；两者都要进账本。1
把验收标准写成可执行检查。 代码代理看测试是否通过、diff 是否最小、是否引入新依赖；文档任务看引用是否完整、是否编造字段。
保留 Opus 兜底。 对高复杂度任务，可以先让 Sonnet 5 跑第一轮，再把失败、冲突或高风险样本升级到 Opus 4.8。
单独评估安全相关工作流。 默认 cyber safeguards 会影响某些安全任务的可用性；如果你依赖这类能力，必须把拒答、误拦截和放行边界单独测出来。1

我的结论是：Sonnet 5 可以成为大多数开发者的下一版默认 Claude 模型，但不该被当成「便宜版 Opus」。它更像一个新的分流器：把大量代理任务留在 Sonnet 档，把真正需要最高能力、最高稳定性或特殊护栏配置的任务，再送到 Opus。

Claude Sonnet 5 发布：接近 Opus 4.8 的代理能力，但价格更低