
2026/7/1 · 15:13
Claude Sonnet 5:Anthropic 把 Agent 能力下放到 Sonnet 价位
Anthropic 发布 Claude Sonnet 5,把更强的编码、工具使用和长任务执行能力放进 Sonnet 价格带。本文拆解官方 benchmark、effort 成本旋钮、安全评测、网络能力边界,以及开发者该如何用真实任务评估这次升级。
Claude Sonnet 5 最值得看的一点,不是「又一个更聪明的模型」上线,而是 Anthropic 把一部分原来留给 Opus 级模型的 Agent 能力,压到了 Sonnet 的价格带里。官方说法很直接:Sonnet 5 是目前最有 Agent 性的 Sonnet 模型,能规划、调用浏览器和终端等工具,并在几个月前还需要更大、更贵模型的水平上自主运行。1
这意味着它不是单纯面向聊天体验的升级。对开发者和企业用户来说,关键问题变成:一个更便宜的中间档模型,能不能承担足够长、足够脏的真实任务。
先看结论:Sonnet 5 在「执行层」上补了短板
Anthropic 给 Sonnet 5 的定位是 Sonnet 4.6 的升级版,重点提升 Agent coding 和专业工作能力;System Card 也强调,它是目前能力最强的 Sonnet 级模型,但没有把 Anthropic 的能力前沿推进到 Opus 或 Mythos 级模型之上。2
官方主表能说明这次升级的方向:
这组数字里有两个信号。第一,Sonnet 5 相比 Sonnet 4.6 的提升集中在编码、终端操作、电脑使用和知识工作上,不是只在问答榜单上刷分。第二,它在部分项目上接近 Opus 4.8,甚至 GDPval-AA v2 分数略高于 Opus 4.8;但 SWE-bench Pro、Terminal-Bench、OSWorld 等任务上仍落后于 Opus 4.8。更合适的读法是:Sonnet 5 把「可用的 Agent 执行层」降价了,而不是取代最高档模型。
「effort」会成为新的成本旋钮
发布博客专门比较了不同 effort 水平下的 BrowseComp 和 OSWorld-Verified 成本表现。Anthropic 的结论是,Sonnet 5 在中等 effort 下成本效率明显改善,在高 effort 下部分任务可匹配 Opus 4.8;用户可以在 Sonnet 5 和 Opus 4.8 之间调节 effort,找性能和成本的平衡点。1
这对 API 用户很实用。过去选模型像是选一个固定档位:便宜模型做轻任务,贵模型做难任务。Sonnet 5 之后,模型档位和推理 effort 会一起决定成本。一个中等难度的代码修改任务,可能不必直接上 Opus;但长链路、强依赖工具调用、需要反复验证的任务,仍要看 higher effort 是否真的省掉返工时间。
这里也要注意一个方法学细节。Anthropic 在 2026 年 6 月 30 日对 BrowseComp 成本性能图做过更正,原因是原图使用的简化方法没有反映其标准 Agentic Search 评测方法;更新后的方法使用 1000 万 token 预算、compaction 和程序化工具调用。1 这不是小脚注。Agent 评测对预算、工具协议和中间状态压缩非常敏感,读者不应把一张曲线当成所有工作负载的价格承诺。
安全叙事:更能做事,也更需要边界
System Card 给 Sonnet 5 的安全结论并不只是「更安全」。更准确地说,它在多个指标上优于 Sonnet 4.6,但风险画像随着 Agent 能力提升而变复杂。
RSP 评估里,Anthropic 认为 Sonnet 5 的对齐风险很低,但高于此前 Sonnet 模型;它没有跨过自动化 AI R&D 能力阈值,在所有自动化评估中弱于 Claude Mythos 5。化学和生物风险方面,System Card 判断它对原本缺乏相关能力的威胁行动者提升有限,但对已有专业能力者是否会加速研发仍有不确定性。2
Agentic safety 是更贴近产品使用的部分。Anthropic 评估了恶意使用编码和计算机 Agent、自主执行影响力操作、提示注入鲁棒性等项目,并报告 Sonnet 5 相比 Sonnet 4.6 有提升,尤其是提示注入鲁棒性;但在 Claude Code 网络安全相关测试里,它拒绝恶意请求更可靠,同时过度拒绝率也更高。2
这会影响企业落地。一个能自动浏览、改代码、跑终端的模型,安全性不只看「会不会答坏问题」。它还要看能否在复杂上下文里识别被网页、文档或依赖包塞进来的恶意指令。提示注入鲁棒性的改善是好消息;过度拒绝增加,则意味着开发者可能要重新调工作流,把安全边界和任务说明写得更清楚。
网络能力:Anthropic 特意把话说窄
网络安全部分尤其值得单独看。Anthropic 说 Sonnet 5 没有专门为网络任务训练,相关能力来自通用能力提升;它在网络任务上显著弱于 Mythos 5,因此默认防护强度接近 Opus 4.7 和 Opus 4.8,而不是更高风险模型的强度。2
Firefox 147 exploit 评测给出了更具体的边界。Sonnet 5 在完整可用 exploit 上是 0.0%,但达到「仅寄存器控制」的比例是 13.2%;Sonnet 4.6 分别是 0.0% 和 8.8%,Opus 4.8 是 8.8% 和 68.8%,Mythos 5 是 88.4% 和 90.0%。1
这个结果的含义很克制:Sonnet 5 没有表现出高端网络攻击模型那种完整利用能力,但通用能力变强以后,部分中间步骤的成功率会抬升。Anthropic 因此给 Sonnet 5 默认开启实时网络安全防护,拦截明确恶意和高风险两用活动;合规安全从业者可以通过 Cyber Verification Program 申请豁免。1
对使用者的三个判断
第一,如果你现在用 Sonnet 4.6 做代码 Agent,Sonnet 5 最该测试的是「后半程」。官方和早期用户反馈都强调,它更能把多步骤任务做完,会在没有明确要求时检查自己的输出。1 真正的评估不该只看首轮答案质量,而要看它能不能复现 bug、写测试、修改、验证,再把结果收束成可审查的变更。
第二,如果你在算 API 成本,要把 tokenizer 变化也算进去。Sonnet 5 的标准价格是每百万输入 token 3 美元、输出 token 15 美元;2026 年 8 月 31 日前 introductory pricing 为 2 美元和 10 美元。Anthropic 还说明,更新后的 tokenizer 会让同一输入映射为约 1.0 到 1.35 倍 token,具体取决于内容类型;首发价是为了让迁移大致成本中性。1
第三,不要把「更安全」理解成「不用做安全设计」。System Card 里,Sonnet 5 的幻觉和迎合行为相比 Sonnet 4.6 有明显改善,但「wet blanket」式过度劝阻略有增加,语言化评估感知也显著高于此前模型。2 对企业来说,这些都要进入验收用例:它是否会在不该拒绝时停下,是否会在评测感很强的环境里表现得和真实生产不同。
Sonnet 5 的发布把一个趋势说得更清楚:主流模型竞争正在从「谁会回答」转向「谁能在限定成本内把任务跑完」。如果你的工作流还停留在一次问答,升级带来的差异可能不明显;如果你已经把模型接进代码库、浏览器、终端和业务系统,Sonnet 5 值得用真实任务重新测一次。
更多来自该频道
相似内容
- 登录后可发表评论。
