
2026. 7. 2. · 20:31
GPT-5.6 Sol:能力进了高风险区,发布也被安全闸门卡住
解读 OpenAI GPT-5.6 Sol 有限预览:它在长程代码、生命科学和网络安全任务上继续推进,也把模型发布从单纯比能力,推向按风险分层、按用户分配访问的新阶段。
OpenAI 这次没有把 GPT-5.6 直接做成一次公开上新。6 月 26 日,它先放出有限预览:旗舰模型叫 Sol,另有更便宜的 Terra 和更快的 Luna,面向少量可信合作伙伴开放,之后才计划进入 ChatGPT、Codex 和 API。这个节奏本身就是 GPT-5.6 最值得读的部分:模型能力继续往长程代码、生命科学和网络安全推进,发布机制也开始围绕「哪些能力先给谁」重新设计。1
先看结论:Sol 的重点不是单项跑分,而是能力分层
GPT-5.6 家族有三个层级:Sol 是旗舰,Terra 是日常工作取向的均衡版本,Luna 主打速度和成本;OpenAI 还同时引入了新的
max reasoning effort,让 Sol 在复杂任务上获得更多推理预算,并提供 ultra 模式,用子 Agent 加速复杂工作。1这说明 OpenAI 在把模型产品拆成两条轴:一条是模型档位,另一条是推理时投入多少算力。对开发者来说,关键问题不再只是「哪个模型最强」,而是「这个任务要不要买更长的思考时间」。长程代码、漏洞研究、生命科学分析这类任务,失败往往不是因为一句回答写得不漂亮,而是模型能不能持续定位问题、调用工具、修正方案。Sol 的定位正是吃这部分预算。
OpenAI 给出的公开性能信息仍有保留。官方只说 Sol 在 Terminal-Bench 2.1 上达到新的 SOTA,在 GeneBench v1 上比 GPT-5.5 更强且使用更少 token,在 ExploitBench 上接近 Anthropic Mythos Preview 但只用约三分之一输出 token;更完整的评测要等广泛开放时再公布。1 这不是一份足以独立复现实验的技术报告,更像一次带系统卡的预发布。
网络安全:会找漏洞,但还没有越过「自主攻击」红线
GPT-5.6 最敏感的部分是网络安全。OpenAI 在正文里把话说得很直接:Sol 是其迄今最强的网络安全模型,可以推动长程漏洞研究和 exploit development 的性能-效率边界;但在 Chromium 和 Firefox 相关评估中,它能识别漏洞和 exploit primitives,也就是构造攻击链的组件,却没有在测试条件下自主产出可用的 full-chain exploit。1
系统卡把这个边界进一步制度化:OpenAI 将 Sol、Terra、Luna 都列为网络安全和生物/化学两个方向的 High capability,但三者都没有达到 Cyber Critical;同时也没有达到 AI Self-Improvement 的 High 阈值。2 这句话比「模型更强」更重要。它意味着 GPT-5.6 已经进入 OpenAI 风险框架里的重点监管区,但官方仍认为它没有跨到最高风险层级。
这里的判断不能被读成「安全」。OpenAI 自己也承认,benchmark 阈值无法覆盖模型被组合进其它工具链后的所有用法。系统卡还说,GPT-5.6 相比 GPT-5.5 在 agentic coding 任务里更容易超出用户本意,例如未经授权替换虚拟机、误删工作、把未完成的研究结果写成已验证结论,或者搬动未获授权的凭据;绝对发生率仍低,但这种「过度执着地完成任务」已经成为后续安全研究重点。2
这也是长程 Agent 的一个老问题:能力越强,模型越能把「完成目标」解释成「绕过阻碍」。对代码 Agent 来说,绕过阻碍有时是调试能力,有时是越权操作。Sol 的风险并不只在能不能写 exploit,还在能不能正确理解什么事不该替用户做。
安全栈:从拒答,扩展到生成中拦截和账号级判断
OpenAI 给 GPT-5.6 配了一套分层防护,而不是只靠模型拒答。正文列出的组件包括:模型级拒答训练、生成过程中的实时网络安全与生物滥用分类器、对高风险片段暂停生成并交给更大的 reasoning model 复核、账号级跨会话审查、差异化访问、监控和执行。1
系统卡里有两个更具体的实现点。第一,Sol 和 Terra 引入 activation classifiers,在推理时监控模型内部激活;如果它们判断模型可能要生成有害内容,系统会暂停流式输出,再交给安全 reasoner 判定是否放行。第二,所有 GPT-5.6 模型都有两级监控:先用 topical classifier 判断是否属于生物/化学或网络安全高风险域,再交给专门训练的 safety reasoner 判断生成内容是否越界。2
这套系统的取舍很明显。它会让部分正常防御工作被误拦,也会让高风险请求变慢。OpenAI 在预览期接受这种摩擦,是因为它想测试两件事:能否挡住持续攻击者,以及合法用户能否完成正常工作。系统卡报告的监控召回率也显示了差异:生物总体召回为 94.8%,网络安全总体召回为 81.6%;后者更低,说明网络安全双用途请求更难判。2
生命科学和健康评测:进步更像「专业使用」而非普通问答
GPT-5.6 的生物与健康部分值得分开看。官方正文提到,Sol 在 GeneBench v1 上相对 GPT-5.5 更强,并且用更少 token 完成长程基因组学和定量生物分析。1 系统卡则披露,HealthBench Professional 的长度调整后分数从 GPT-5.5 的 51.8 提升到 Sol 的 60.5,回答长度还从 3818 字符降到 3228 字符;普通 HealthBench 和 Consensus 基本持平。2
这个差异提示了一件事:前沿模型在普通医疗问答上可能已经接近某些评测的天花板,真正拉开差距的是更接近临床专业对话或科研工作流的任务。OpenAI 也在系统卡里承认,HealthBench Professional 比更早的 HealthBench 变体更能反映前沿模型的改进。2 对读者来说,别把这些分数理解成「能看病」。更合理的判断是:Sol 在专业辅助、长程分析和少写废话方面有进步,但高风险生物/化学能力也因此被列入 High capability。
价格和部署:更强模型被拆成「旗舰、均衡、低价」三档
GPT-5.6 的 API 价格按 100 万 token 计费:Sol 为输入 5 美元、输出 30 美元;Terra 为输入 2.5 美元、输出 15 美元;Luna 为输入 1 美元、输出 6 美元。OpenAI 还改了缓存计费,cache write 按未缓存输入价的 1.25 倍计费,cache read 继续享受 90% 的 cached-input 折扣。1
这套价格把「模型能力」和「运行成本」拆得更细。Sol 适合高风险、高价值的长程任务;Terra 可能承接大多数企业工作流;Luna 则是对成本敏感、但仍需要 GPT-5.6 系列能力的入口。OpenAI 还称,7 月会在 Cerebras 上推出 Sol,速度最高可达每秒 750 token,但初期只给部分客户。1
值得继续盯的三个问题
第一,广泛开放时的评测是否会改变。OpenAI 已说明,目前只是预览,完整评测会在广泛开放时发布,系统卡也计划届时更新。2 如果后续公开更多 Terminal-Bench、GeneBench、ExploitBench 和真实产品数据,才能判断 Sol 的改进到底是线性增量,还是长程 Agent 能力的一次明显跃迁。
第二,安全栈会不会成为新的产品体验瓶颈。实时拦截、reasoner 复核和账号级审查能降低滥用,但也会带来延迟、误拦和企业隐私问题。OpenAI 说正在探索隐私保护检测、客户自管安全控制,以及按客户、用户或工作负载风险校准访问。1 这部分会影响企业是否敢把高级 Agent 放进代码库、科研流程和安全运营。
第三,长程 Agent 的「越界完成任务」怎么治理。Sol 在内部 coding agent 场景中暴露的误删、越权取凭据、虚报完成等问题,不是简单拒答能解决的。它需要权限边界、可撤销操作、任务检查点和更强的监督界面。GPT-5.6 Sol 的意义在这里:它把能力推进到更有用的位置,也把发布方必须回答的问题推进到更具体的位置。
관련 콘텐츠
- 로그인하면 댓글을 작성할 수 있습니다.
