Opus 4.8:Anthropic 把旗舰模型做成更稳的代理工人1×0:006:420:08开场0:40更新内容1:43动态工作流2:44跑分该怎么读4:03安全与诚实5:03模型线的位置6:03结尾0:08主播Anthropic 在五月二十八日发布 Claude Opus 四点八。按官方原文,它是 Opus 四点七的升级版,同价上线,重点放在编码、代理任务、推理和专业工作。听上去像常规模型迭代,但这篇公告真正要看的,不是又多了几个跑分,而是 Anthropic 正在把模型从聊天框里的高手,推向可以连续做事的代理工人。0:40主播官方原文给了三个一起发布的变化。第一,Claude.ai 和 Cowork 里出现努力程度控制,用户可以让 Claude 多想一点,或者更快给出答案。第二,Claude Code 增加动态工作流。第三,Messages API 支持在消息数组里插入系统指令,让开发者在任务中途更新权限、词元预算或环境上下文,而不必打断提示缓存。1:14主播这些功能连起来看,方向很清楚。Opus 四点八不是只回答一个问题,而是要在一个会变化的任务环境里工作。任务可能跨好几个代码仓库,可能要先计划、再拆分、再调用工具,还要把中途发现的问题反馈回来。模型能力的衡量标准,也从「一句话答得准不准」变成「跑到最后会不会把事情做完」。1:43主播Claude Code 的动态工作流博客说得更直接:Claude 可以在一次会话里写出编排脚本,启动几十到上百个并行子代理,再把结果合并和复查。博客举的例子包括大代码库的漏洞排查、迁移、现代化改造,以及需要反复核验的高风险改动。它还提醒,动态工作流会明显消耗更多用量,第一次触发时会让用户确认。2:14主播这解释了为什么 Opus 四点八要配合「努力程度」发布。长任务不是越快越好。Anthropic 在原文里说,Opus 四点八默认高努力;困难任务和长时间异步工作,建议用 extra,也就是 Claude Code 里的 xhigh。换句话说,用户买的不只是模型参数,而是在质量、速度和成本之间调节一个工作模式。2:44主播跑分部分要谨慎读。Anthropic 原文说,Opus 四点八在编码、代理技能、推理和知识工作测试上超过前代,也把更完整的评估放进系统卡。SWE-bench 官网把 Verified 描述为五百个经过人工筛选的软件工程问题;Terminal-Bench 自称用于测试代理在真实终端里的任务能力;OSWorld 则强调真实电脑环境和三百六十九个开放任务。这些基准的共同点,是开始逼近「会不会操作工具完成任务」。3:27主播但基准仍然不是生产环境。终端、浏览器和代码库任务,比选择题更接近真实工作,可它们还是有固定题目、固定评测脚本和可复现环境。企业真正关心的是:模型遇到脏数据、权限变化、测试不完整、需求含糊时,会不会瞎推进。Opus 四点八公告里反复出现的词不是「更聪明」,而是判断力、可靠性、会不会承认不确定。4:03主播Anthropic 在原文里特别提到 honesty,也就是诚实性。它说早期测试者发现 Opus 四点八更愿意标出自己工作的不确定性,评估显示它比前代少得多地让自己写出的代码缺陷悄悄通过。公告还说,完整对齐评估和上线前安全测试写在 Claude Opus 四点八系统卡里,错配行为低于 Opus 四点七,接近 Mythos Preview 这一类安全表现更好的模型。4:36主播这点对代理工作很关键。普通聊天里,模型说错一句话,用户还能追问。一个长时间运行的代码代理如果把错误藏在提交里,后果会晚很多才暴露。Anthropic 把「会质疑自己」写进产品叙事,等于承认下一阶段的竞争不只是最高分,而是谁能在更长链路里少犯隐蔽错误。5:03主播从模型线看,Opus 四点八也有一个尴尬但重要的位置。Claude 文档把它称为 Opus 档最强模型,适合复杂推理、长链路代理编码和高自治工作;同一份文档又把 Fable 五放在更高的广泛发布能力层,把 Mythos 五放在 Glasswing 项目里。Opus 四点八更像一个可大规模使用的稳态旗舰,而不是 Anthropic 能力天花板。5:35主播价格也在强化这个定位。官方原文说,常规价格与 Opus 四点七相同,每百万输入词元五美元,输出词元二十五美元;快速模式是输入十美元、输出五十美元,但比以前便宜三分之二。Anthropic 没有把它包装成彻底换代,而是在告诉开发者:你可以用熟悉的价格,换一个更能跑长任务、也更会自我检查的 Opus。6:03主播所以,这篇公告的重点不是 Opus 四点八多强,而是 Anthropic 对「强」的定义正在变窄。它要的是能拆任务、用工具、跑很久、知道什么时候该停下来报不确定。对开发者来说,下一步要观察的不是某个榜单名次,而是动态工作流进入真实团队后,失败是变少了,还是只是变得更难被发现。
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.