Claude Sonnet 5：Anthropic 把 Agent 能力下放到 Sonnet 价位 (2026)

Claude Sonnet 5 最值得看的一点，不是「又一个更聪明的模型」上线，而是 Anthropic 把一部分原来留给 Opus 级模型的 Agent 能力，压到了 Sonnet 的价格带里。官方说法很直接：Sonnet 5 是目前最有 Agent 性的 Sonnet 模型，能规划、调用浏览器和终端等工具，并在几个月前还需要更大、更贵模型的水平上自主运行。1

这意味着它不是单纯面向聊天体验的升级。对开发者和企业用户来说，关键问题变成：一个更便宜的中间档模型，能不能承担足够长、足够脏的真实任务。

先看结论：Sonnet 5 在「执行层」上补了短板

Anthropic 给 Sonnet 5 的定位是 Sonnet 4.6 的升级版，重点提升 Agent coding 和专业工作能力；System Card 也强调，它是目前能力最强的 Sonnet 级模型，但没有把 Anthropic 的能力前沿推进到 Opus 或 Mythos 级模型之上。2

官方主表能说明这次升级的方向：

评测	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	63.2%	58.1%	69.2% 1
Terminal-Bench 2.1	80.4%	67.0%	82.7% 1
Humanity's Last Exam，无工具	43.2%	34.6%	49.8% 1
Humanity's Last Exam，有工具	57.4%	46.8%	57.9% 1
OSWorld-Verified	81.2%	78.5%	83.4% 1
GDPval-AA v2	1618	1395	1615 1

这组数字里有两个信号。第一，Sonnet 5 相比 Sonnet 4.6 的提升集中在编码、终端操作、电脑使用和知识工作上，不是只在问答榜单上刷分。第二，它在部分项目上接近 Opus 4.8，甚至 GDPval-AA v2 分数略高于 Opus 4.8；但 SWE-bench Pro、Terminal-Bench、OSWorld 等任务上仍落后于 Opus 4.8。更合适的读法是：Sonnet 5 把「可用的 Agent 执行层」降价了，而不是取代最高档模型。

「effort」会成为新的成本旋钮

发布博客专门比较了不同 effort 水平下的 BrowseComp 和 OSWorld-Verified 成本表现。Anthropic 的结论是，Sonnet 5 在中等 effort 下成本效率明显改善，在高 effort 下部分任务可匹配 Opus 4.8；用户可以在 Sonnet 5 和 Opus 4.8 之间调节 effort，找性能和成本的平衡点。1

这对 API 用户很实用。过去选模型像是选一个固定档位：便宜模型做轻任务，贵模型做难任务。Sonnet 5 之后，模型档位和推理 effort 会一起决定成本。一个中等难度的代码修改任务，可能不必直接上 Opus；但长链路、强依赖工具调用、需要反复验证的任务，仍要看 higher effort 是否真的省掉返工时间。

这里也要注意一个方法学细节。Anthropic 在 2026 年 6 月 30 日对 BrowseComp 成本性能图做过更正，原因是原图使用的简化方法没有反映其标准 Agentic Search 评测方法；更新后的方法使用 1000 万 token 预算、compaction 和程序化工具调用。1 这不是小脚注。Agent 评测对预算、工具协议和中间状态压缩非常敏感，读者不应把一张曲线当成所有工作负载的价格承诺。

安全叙事：更能做事，也更需要边界

System Card 给 Sonnet 5 的安全结论并不只是「更安全」。更准确地说，它在多个指标上优于 Sonnet 4.6，但风险画像随着 Agent 能力提升而变复杂。

RSP 评估里，Anthropic 认为 Sonnet 5 的对齐风险很低，但高于此前 Sonnet 模型；它没有跨过自动化 AI R&D 能力阈值，在所有自动化评估中弱于 Claude Mythos 5。化学和生物风险方面，System Card 判断它对原本缺乏相关能力的威胁行动者提升有限，但对已有专业能力者是否会加速研发仍有不确定性。2

Agentic safety 是更贴近产品使用的部分。Anthropic 评估了恶意使用编码和计算机 Agent、自主执行影响力操作、提示注入鲁棒性等项目，并报告 Sonnet 5 相比 Sonnet 4.6 有提升，尤其是提示注入鲁棒性；但在 Claude Code 网络安全相关测试里，它拒绝恶意请求更可靠，同时过度拒绝率也更高。2

这会影响企业落地。一个能自动浏览、改代码、跑终端的模型，安全性不只看「会不会答坏问题」。它还要看能否在复杂上下文里识别被网页、文档或依赖包塞进来的恶意指令。提示注入鲁棒性的改善是好消息；过度拒绝增加，则意味着开发者可能要重新调工作流，把安全边界和任务说明写得更清楚。

网络能力：Anthropic 特意把话说窄

网络安全部分尤其值得单独看。Anthropic 说 Sonnet 5 没有专门为网络任务训练，相关能力来自通用能力提升；它在网络任务上显著弱于 Mythos 5，因此默认防护强度接近 Opus 4.7 和 Opus 4.8，而不是更高风险模型的强度。2

Firefox 147 exploit 评测给出了更具体的边界。Sonnet 5 在完整可用 exploit 上是 0.0%，但达到「仅寄存器控制」的比例是 13.2%；Sonnet 4.6 分别是 0.0% 和 8.8%，Opus 4.8 是 8.8% 和 68.8%，Mythos 5 是 88.4% 和 90.0%。1

这个结果的含义很克制：Sonnet 5 没有表现出高端网络攻击模型那种完整利用能力，但通用能力变强以后，部分中间步骤的成功率会抬升。Anthropic 因此给 Sonnet 5 默认开启实时网络安全防护，拦截明确恶意和高风险两用活动；合规安全从业者可以通过 Cyber Verification Program 申请豁免。1

对使用者的三个判断

第一，如果你现在用 Sonnet 4.6 做代码 Agent，Sonnet 5 最该测试的是「后半程」。官方和早期用户反馈都强调，它更能把多步骤任务做完，会在没有明确要求时检查自己的输出。1 真正的评估不该只看首轮答案质量，而要看它能不能复现 bug、写测试、修改、验证，再把结果收束成可审查的变更。

第二，如果你在算 API 成本，要把 tokenizer 变化也算进去。Sonnet 5 的标准价格是每百万输入 token 3 美元、输出 token 15 美元；2026 年 8 月 31 日前 introductory pricing 为 2 美元和 10 美元。Anthropic 还说明，更新后的 tokenizer 会让同一输入映射为约 1.0 到 1.35 倍 token，具体取决于内容类型；首发价是为了让迁移大致成本中性。1

第三，不要把「更安全」理解成「不用做安全设计」。System Card 里，Sonnet 5 的幻觉和迎合行为相比 Sonnet 4.6 有明显改善，但「wet blanket」式过度劝阻略有增加，语言化评估感知也显著高于此前模型。2 对企业来说，这些都要进入验收用例：它是否会在不该拒绝时停下，是否会在评测感很强的环境里表现得和真实生产不同。

Sonnet 5 的发布把一个趋势说得更清楚：主流模型竞争正在从「谁会回答」转向「谁能在限定成本内把任务跑完」。如果你的工作流还停留在一次问答，升级带来的差异可能不明显；如果你已经把模型接进代码库、浏览器、终端和业务系统，Sonnet 5 值得用真实任务重新测一次。

Claude Sonnet 5：Anthropic 把 Agent 能力下放到 Sonnet 价位

先看结论：Sonnet 5 在「执行层」上补了短板

「effort」会成为新的成本旋钮

安全叙事：更能做事，也更需要边界

网络能力：Anthropic 特意把话说窄

对使用者的三个判断

参考来源

更多来自该频道

相似内容