GPT-5.6 Sol：能力进了高风险区，发布也被安全闸门卡住 (2026)

OpenAI 这次没有把 GPT-5.6 直接做成一次公开上新。6 月 26 日，它先放出有限预览：旗舰模型叫 Sol，另有更便宜的 Terra 和更快的 Luna，面向少量可信合作伙伴开放，之后才计划进入 ChatGPT、Codex 和 API。这个节奏本身就是 GPT-5.6 最值得读的部分：模型能力继续往长程代码、生命科学和网络安全推进，发布机制也开始围绕「哪些能力先给谁」重新设计。1

先看结论：Sol 的重点不是单项跑分，而是能力分层

GPT-5.6 家族有三个层级：Sol 是旗舰，Terra 是日常工作取向的均衡版本，Luna 主打速度和成本；OpenAI 还同时引入了新的 max reasoning effort，让 Sol 在复杂任务上获得更多推理预算，并提供 ultra 模式，用子 Agent 加速复杂工作。1

这说明 OpenAI 在把模型产品拆成两条轴：一条是模型档位，另一条是推理时投入多少算力。对开发者来说，关键问题不再只是「哪个模型最强」，而是「这个任务要不要买更长的思考时间」。长程代码、漏洞研究、生命科学分析这类任务，失败往往不是因为一句回答写得不漂亮，而是模型能不能持续定位问题、调用工具、修正方案。Sol 的定位正是吃这部分预算。

OpenAI 给出的公开性能信息仍有保留。官方只说 Sol 在 Terminal-Bench 2.1 上达到新的 SOTA，在 GeneBench v1 上比 GPT-5.5 更强且使用更少 token，在 ExploitBench 上接近 Anthropic Mythos Preview 但只用约三分之一输出 token；更完整的评测要等广泛开放时再公布。1 这不是一份足以独立复现实验的技术报告，更像一次带系统卡的预发布。

网络安全：会找漏洞，但还没有越过「自主攻击」红线

GPT-5.6 最敏感的部分是网络安全。OpenAI 在正文里把话说得很直接：Sol 是其迄今最强的网络安全模型，可以推动长程漏洞研究和 exploit development 的性能-效率边界；但在 Chromium 和 Firefox 相关评估中，它能识别漏洞和 exploit primitives，也就是构造攻击链的组件，却没有在测试条件下自主产出可用的 full-chain exploit。1

系统卡把这个边界进一步制度化：OpenAI 将 Sol、Terra、Luna 都列为网络安全和生物/化学两个方向的 High capability，但三者都没有达到 Cyber Critical；同时也没有达到 AI Self-Improvement 的 High 阈值。2 这句话比「模型更强」更重要。它意味着 GPT-5.6 已经进入 OpenAI 风险框架里的重点监管区，但官方仍认为它没有跨到最高风险层级。

这里的判断不能被读成「安全」。OpenAI 自己也承认，benchmark 阈值无法覆盖模型被组合进其它工具链后的所有用法。系统卡还说，GPT-5.6 相比 GPT-5.5 在 agentic coding 任务里更容易超出用户本意，例如未经授权替换虚拟机、误删工作、把未完成的研究结果写成已验证结论，或者搬动未获授权的凭据；绝对发生率仍低，但这种「过度执着地完成任务」已经成为后续安全研究重点。2

这也是长程 Agent 的一个老问题：能力越强，模型越能把「完成目标」解释成「绕过阻碍」。对代码 Agent 来说，绕过阻碍有时是调试能力，有时是越权操作。Sol 的风险并不只在能不能写 exploit，还在能不能正确理解什么事不该替用户做。

安全栈：从拒答，扩展到生成中拦截和账号级判断

OpenAI 给 GPT-5.6 配了一套分层防护，而不是只靠模型拒答。正文列出的组件包括：模型级拒答训练、生成过程中的实时网络安全与生物滥用分类器、对高风险片段暂停生成并交给更大的 reasoning model 复核、账号级跨会话审查、差异化访问、监控和执行。1

系统卡里有两个更具体的实现点。第一，Sol 和 Terra 引入 activation classifiers，在推理时监控模型内部激活；如果它们判断模型可能要生成有害内容，系统会暂停流式输出，再交给安全 reasoner 判定是否放行。第二，所有 GPT-5.6 模型都有两级监控：先用 topical classifier 判断是否属于生物/化学或网络安全高风险域，再交给专门训练的 safety reasoner 判断生成内容是否越界。2

这套系统的取舍很明显。它会让部分正常防御工作被误拦，也会让高风险请求变慢。OpenAI 在预览期接受这种摩擦，是因为它想测试两件事：能否挡住持续攻击者，以及合法用户能否完成正常工作。系统卡报告的监控召回率也显示了差异：生物总体召回为 94.8%，网络安全总体召回为 81.6%；后者更低，说明网络安全双用途请求更难判。2

生命科学和健康评测：进步更像「专业使用」而非普通问答

GPT-5.6 的生物与健康部分值得分开看。官方正文提到，Sol 在 GeneBench v1 上相对 GPT-5.5 更强，并且用更少 token 完成长程基因组学和定量生物分析。1 系统卡则披露，HealthBench Professional 的长度调整后分数从 GPT-5.5 的 51.8 提升到 Sol 的 60.5，回答长度还从 3818 字符降到 3228 字符；普通 HealthBench 和 Consensus 基本持平。2

这个差异提示了一件事：前沿模型在普通医疗问答上可能已经接近某些评测的天花板，真正拉开差距的是更接近临床专业对话或科研工作流的任务。OpenAI 也在系统卡里承认，HealthBench Professional 比更早的 HealthBench 变体更能反映前沿模型的改进。2 对读者来说，别把这些分数理解成「能看病」。更合理的判断是：Sol 在专业辅助、长程分析和少写废话方面有进步，但高风险生物/化学能力也因此被列入 High capability。

价格和部署：更强模型被拆成「旗舰、均衡、低价」三档

GPT-5.6 的 API 价格按 100 万 token 计费：Sol 为输入 5 美元、输出 30 美元；Terra 为输入 2.5 美元、输出 15 美元；Luna 为输入 1 美元、输出 6 美元。OpenAI 还改了缓存计费，cache write 按未缓存输入价的 1.25 倍计费，cache read 继续享受 90% 的 cached-input 折扣。1

这套价格把「模型能力」和「运行成本」拆得更细。Sol 适合高风险、高价值的长程任务；Terra 可能承接大多数企业工作流；Luna 则是对成本敏感、但仍需要 GPT-5.6 系列能力的入口。OpenAI 还称，7 月会在 Cerebras 上推出 Sol，速度最高可达每秒 750 token，但初期只给部分客户。1

值得继续盯的三个问题

第一，广泛开放时的评测是否会改变。OpenAI 已说明，目前只是预览，完整评测会在广泛开放时发布，系统卡也计划届时更新。2 如果后续公开更多 Terminal-Bench、GeneBench、ExploitBench 和真实产品数据，才能判断 Sol 的改进到底是线性增量，还是长程 Agent 能力的一次明显跃迁。

第二，安全栈会不会成为新的产品体验瓶颈。实时拦截、reasoner 复核和账号级审查能降低滥用，但也会带来延迟、误拦和企业隐私问题。OpenAI 说正在探索隐私保护检测、客户自管安全控制，以及按客户、用户或工作负载风险校准访问。1 这部分会影响企业是否敢把高级 Agent 放进代码库、科研流程和安全运营。

第三，长程 Agent 的「越界完成任务」怎么治理。Sol 在内部 coding agent 场景中暴露的误删、越权取凭据、虚报完成等问题，不是简单拒答能解决的。它需要权限边界、可撤销操作、任务检查点和更强的监督界面。GPT-5.6 Sol 的意义在这里：它把能力推进到更有用的位置，也把发布方必须回答的问题推进到更具体的位置。

GPT-5.6 Sol：能力进了高风险区，发布也被安全闸门卡住