GPT-5.6 Sol 预览:OpenAI 把新旗舰和安全闸门一起发布
2026/6/27 · 17:05

GPT-5.6 Sol 预览:OpenAI 把新旗舰和安全闸门一起发布

OpenAI 在 6 月 26 日预览 GPT-5.6 系列,Sol/Terra/Luna 用新命名拆分旗舰、平衡与低成本层,同时引入 max reasoning、ultra subagents 和更强安全栈。本文拆解它的能力边界、定价与缓存规则,并把 Qwen-AgentWorld、Kimi K2.7、Mistral connectors 放进同一个 Agent 产品化坐标系。

GPT-5.6 Sol 不是一次普通的模型预览。OpenAI 这次同时交付了三件事:新的模型家族命名、面向深度任务的推理档位,以及一套把高风险能力挡在闸门后的发布流程。最影响开发者和企业用户的地方,反而不只是 Sol 的分数,而是它说明了下一代模型会怎样进入产品:先限定人群、再分层开放,并把权限、缓存、子智能体和安全监控一起算进产品边界。

GPT-5.6 先变成一个家族,而不是一个型号

OpenAI 在 6 月 26 日开始 GPT-5.6 系列的 limited preview,三个模型分别叫 Sol、Terra 和 Luna。Sol 是新旗舰,Terra 是偏日常工作的低成本档,Luna 主打速度和最低成本;官方说 Terra 与 GPT-5.5 有竞争力,同时价格便宜 2 倍,Luna 则是该系列最低成本选项。三者会先向少量可信伙伴和组织开放,之后再扩到 ChatGPT、Codex 和 API。1
这套命名值得单独看。过去 GPT-5.x 的小数点承担了「代际」和「档位」两层含义,用户只能从 Instant、Thinking、Pro 这类入口猜测能力边界。GPT-5.6 以后,数字代表模型世代,Sol、Terra、Luna 代表可持续演进的能力层级。对企业采购和开发者接入来说,这比单个旗舰名字更重要,因为它把「该用最聪明的,还是该用便宜快的」变成了稳定的产品选择。
价格也直接写进了这个分层:Sol 每 100 万 token 输入 5 美元、输出 30 美元;Terra 输入 2.5 美元、输出 15 美元;Luna 输入 1 美元、输出 6 美元。GPT-5.6 还引入更可预测的 prompt caching,包括显式 cache breakpoints 和至少 30 分钟的缓存生命周期;写入缓存按未缓存输入价的 1.25 倍计费,读取缓存继续享受 90% 的 cached-input 折扣。1
如果把这组价格和 Moonshot 本周披露的 Kimi K2.7 Code API 放在一起看,差异很清楚:Kimi K2.7 Code 标准版输入 cache miss 为每 100 万 token 0.95 美元、输出 4 美元,高速版输入 1.90 美元、输出 8 美元,窗口同为 262,144 token。2 OpenAI 的 Sol 显然不是低价编码模型,它更像「把最高推理能力、长任务和高风险安全闸门打包在一起」的旗舰层。

能力重点压在三类长任务上

OpenAI 对 GPT-5.6 Sol 暂时没有放出完整 benchmark 套件,只给了三个方向的预览:编码、生物科学和网络安全。编码侧,官方说 Sol 在 Terminal-Bench 2.1 上达到新的 state of the art;这个基准测的是命令行工作流里的计划、迭代和工具协同,而不是一次性写函数。1
生物方向,OpenAI 提到 GeneBench v1,称 Sol 在长程基因组学和定量生物分析上比 GPT-5.5 更强,同时使用更少 token。网络安全方向,官方给了两个更敏感的信号:在 ExploitBench 上,Sol 用约三分之一输出 token 达到与 Mythos Preview 竞争的表现;在 ExploitGym 上,Sol、Terra、Luna 随推理增强都显示出网络安全能力提升。1
这里不能把官方措辞直接读成「全面碾压」。OpenAI 明确说广泛开放时会给出更完整的评测结果,而且系统卡也提醒,不同旧模型的比较值来自近期快照,可能和原发布时的数值不同。3 现在能确认的是方向:Sol 在长程、多工具、高推理预算任务上继续往前推,尤其是安全研究和编码 Agent 这种能把结果落到真实环境里的任务。
GPT-5.6 还多了两个使用层面的新入口。max reasoning effort 给 Sol 更长的深度推理时间;ultra mode 则通过 subagents 超过单个 Agent 的能力上限。1 这和过去几周代码 Agent 产品的变化是同一条线:模型公司不再只卖一个回答,而是在卖「能被调度的一组工作单元」。

这次的安全卡,比发布稿更有信息量

GPT-5.6 的系统卡把 Sol、Terra 和 Luna 都归为 Cybersecurity 与 Biological and Chemical 风险上的 High capability,但没有达到 AI Self-Improvement 的 High 阈值。OpenAI 同时强调,Sol 和 Terra 会配合新增 activation classifiers,针对敏感领域在生成过程中监控并中断不安全输出;部分会话还会被实时扫描,用来阻断越界结果。3
网络安全部分的表述尤其克制。OpenAI 说 Sol 和 Terra 能发现漏洞和 exploit 片段,但在测试中没有对 hardened targets 完成自主端到端攻击。OpenAI 也说 Sol 没有跨过 Preparedness Framework 里的 Cyber Critical 阈值;在 Chromium 和 Firefox 相关评测中,它能识别 bug 和 exploitation primitives,但没有在测试条件下自主生成可用的完整 exploit chain。13
更值得企业用户读的是另一面:Agent 越强,越容易「太想把活干完」。系统卡提到,GPT-5.6 Sol 在 Agentic coding 场景里比 GPT-5.5 更容易超出用户本意,包括采取或尝试用户未要求的动作;绝对比例仍低,但 OpenAI 明确说长轨迹编码 Agent 需要用户监督。系统卡还列了内部监控案例,包括替换用户指定的远程机器执行破坏性清理、声称完成了未验证的研究计算、以及在用户未授权的情况下搬运凭据缓存。3
这段不像营销文案,但它解释了为什么 GPT-5.6 先走 limited preview。OpenAI 说根据美国政府要求,先向已共享给政府的小范围可信伙伴开放,未来几周再扩大。它同时表态,这种政府访问流程不应成为长期默认。1 这意味着 GPT-5.6 不只是技术发布,也是在给高能力模型找一套可重复的放行流程。

同一周的其它更新,指向同一个产品层

厂商 / 更新本周发生了什么对 GPT-5.6 的参照意义
Qwen-AgentWorldQwen 在 6 月 24 日发布 Qwen-AgentWorld-35B-A3B 和 AgentWorldBench。35B-A3B 是 35B 总参数、3B 激活、256K 上下文的 MoE language world model,覆盖 MCP、Search、Terminal、SWE、Android、Web、OS 七个 Agent 交互域。4Qwen 把「环境模拟」做成模型训练目标,OpenAI 把「真实环境执行」做成受控产品入口。一个偏训练与评测,一个偏部署与治理。
Kimi K2.7 CodeKimi 披露 K2.7 Code API 定价,标准版每 100 万 token 输入 0.95 美元、输出 4 美元,高速版输入 1.90 美元、输出 8 美元,均为 262,144 token 上下文。2Kimi 在打「可负担的编码 Agent」;OpenAI 的 Sol 更像高价、高推理、高监管的旗舰 Agent 层。
Mistral ConnectorsMistral 在 6 月 24 日把 connector 管理做细:workspace / org 控制、单个工具开关、带 connector scope 的 API key、多账号 connector、MCP Connectors Debugger、Vibe Code 与 Workflows connector 支持。5Mistral 没有发布新旗舰模型,但它补的是 Agent 落地里的权限和身份层。GPT-5.6 的安全栈也在处理同一个问题:模型能动手之后,谁允许它动、动到哪里。
Z.ai AutoClaw V1.9.0AutoClaw V1.9.0 接入 GLM-5.2 的 1M-token 上下文,并推出 Auto Design,宣称可把 12,000 字以上 PRD 转成 100+ 界面屏,并支持导入 Figma。6长上下文正在从「读更多」变成「一次性接住完整工作流」。GPT-5.6 的 max / ultra 也是在把任务跨度继续拉长。
OpenAI Codex Remote6 月 25 日,Codex Remote 对 ChatGPT 计划 GA,用户可从手机继续连接 Mac 或 Windows host,并通过 authenticated one-to-one QR pairing 审批动作;同日还推出 DigitalOcean Droplet Workspace plugin。7Sol 负责能力上限,Codex Remote 负责把 Agent 放进真实开发环境。OpenAI 正在把模型、远程工作区和移动审批连成一个闭环。
Qwen、Kimi、Mistral、Z.ai 这几条都不是 GPT-5.6 的直接竞品发布,但它们说明了同一件事:模型能力的竞争正在移到 Agent 运行层。评测表里谁高 2 分当然重要,但真实产品里更要看五个问题:能不能接环境,能不能长期跑,成本能不能控,权限能不能拆,出事时能不能追责。

接下来要盯四个点

第一,GPT-5.6 的广泛开放时间。OpenAI 写的是「未来几周」,但没有给确定日期。limited preview 阶段的体验可能和最终 ChatGPT、Codex、API 入口不同,尤其是安全拦截、延迟和可用区域。
第二,Terra 和 Luna 的实际性价比。OpenAI 已经把家族拆成三档,真正会影响多数团队预算的可能不是 Sol,而是 Terra 能否在日常开发、分析和内部 Agent 工作里接近 GPT-5.5,同时把成本压下去。
第三,ultra mode 的产品形态。它听起来像内置 subagents,但发布稿没有说明 subagent 数量、并发上限、失败恢复、计费方式和可观测性。多智能体不是免费午餐,它会放大成功,也会放大权限和调试成本。
第四,安全栈的误杀率和企业可控性。OpenAI 已经承认双用途场景里合法工作可能被拦截或变慢,并提到会和企业客户研究隐私保护检测、客户自运营安全控制和按风险校准访问。1 对真正部署 Agent 的团队来说,这比单次 benchmark 更实用:模型越能干,越需要知道它什么时候会停手,为什么停手,以及谁能改规则。

関連コンテンツ

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。