
2026/6/27 · 3:51
GPT-5.6 Sol 预览发布:能力升级很大,但大多数人暂时用不上
OpenAI 预览发布 GPT-5.6 Sol、Terra、Luna 三个模型层级。本期拆解它们的能力变化、访问限制、价格、安全边界和迁移建议,帮助开发者与产品团队判断现在该试用、等待还是先做评估准备。
研究速览
OpenAI 这次不是只发了一个新名字。2026 年 6 月 26 日,它预览了 GPT-5.6 系列:Sol、Terra、Luna 三个层级,同时把发布方式改成了「少数可信伙伴先用,几周后再扩大」的节奏。1
先给结论:如果你是普通 ChatGPT 用户或公共 API 开发者,现在还不用迁移;如果你在企业 API、Codex、网络安全或长任务编码场景里,GPT-5.6 值得立刻列入评估队列。 这次真正需要关注的不是一个单点 benchmark,而是三件事:模型家族分层、安全栈变厚、前沿模型发布开始被政府流程影响。
这次到底发布了什么
GPT-5.6 不是单一模型,而是一个新家族。OpenAI 把 Sol 定位为旗舰模型,把 Terra 放在日常工作与成本之间,把 Luna 放在速度和价格优先的位置。官方还说,这套命名会从 GPT-5.6 开始使用:数字代表模型代际,Sol、Terra、Luna 代表长期存在的能力层级。1
OpenAI 还为 GPT-5.6 引入了更可预测的 prompt caching:显式缓存断点、至少 30 分钟缓存寿命;从 GPT-5.6 起,缓存写入按未缓存输入价格的 1.25 倍计费,缓存读取继续享受 90% 折扣。2 这对长上下文、重复模板、Agent 多轮工作很关键,因为真正烧钱的往往不是单次提示,而是同一批上下文被反复带入。
能力变化:Sol 的重点是「长任务代理」
OpenAI 对 GPT-5.6 Sol 的描述集中在编码、计算机使用、专业知识工作、科学研究和网络安全。官方称 Sol 在 Terminal-Bench 2.1 上达到新的最好结果,该基准测试命令行工作流里的规划、迭代和工具协同;在 GeneBench v1 上,Sol 相比 GPT-5.5 结果更强且 token 用量更少。1
这句话要拆开看。Terminal-Bench 2.1 和 GeneBench v1 不是普通聊天体验指标,而是长链条任务指标。它们更接近产品团队现在最想让模型做的事:接手一个代码库、跑命令、修错误、反复验证,或者在科研数据里推进多步分析。
GPT-5.6 还新增
max 推理强度,给 Sol 更长时间做深度推理;ultra 模式则通过子代理并行处理复杂任务。1 这意味着 OpenAI 正在把前沿模型从「一次回答」推向「多代理协作」。但它也带来一个现实问题:越像代理,越需要预算控制、权限控制和人工复核。跟 GPT-5.5 比,开发者应该看哪几处
第一,Terra 的位置很清楚:它不是旗舰,但 OpenAI 把它描述为性能接近 GPT-5.5、成本更低的日常工作模型。1 如果这条在真实业务里成立,很多团队未必会把 Sol 当默认模型,而会把 Terra 当作 GPT-5.5 的替代候选。
第二,Sol 的优势更像高难任务加速器。官方说 GPT-5.6 Sol 是其网络安全能力最强的模型,在长周期安全任务中改变了性能与效率边界;在 ExploitBench 中,它用约三分之一输出 token 达到与 Mythos Preview 有竞争力的结果。1 这里不能直接读成「Sol 已被独立证明全面更强」。这是 OpenAI 自己给出的评估口径,实际迁移前仍要跑你自己的任务集。
第三,Sol 在速度上会有另一条路线。OpenAI 称 GPT-5.6 Sol 将于 7 月在 Cerebras 上线,速度最高可达每秒 750 token,初期仍只面向部分客户。1 如果你做的是代码审查、自动修复、安全扫描这类要跑很多轮的任务,速度可能比单次准确率更影响最终成本。
最大限制:大多数人现在还用不上
预览期内,GPT-5.6 Sol、Terra、Luna 只面向少数可信伙伴和组织开放,入口是 OpenAI API 与 Codex;个人用户不能报名,也没有公开 waitlist,ChatGPT 也不包含在本次预览里。2
这次发布的特殊之处,是访问限制来自美国政府参与。OpenAI 在公告中说,作为与美国政府持续沟通的一部分,它在发布前预览了计划和模型能力;按政府要求,先从一小组可信伙伴开始。OpenAI 同时写明,它不认为这种政府访问流程应该成为长期默认做法。1
外部报道也把焦点放在这一点。CNBC 报道称,OpenAI 正按美国政府要求先限制给「少数可信伙伴」;WIRED 进一步写到,OpenAI 将先把模型交给一小批由美国政府预先批准的客户,再与政府合作逐步扩大访问。34 Axios 则称首批约 20 家公司可用,OpenAI 预计下周扩大到更多公司。这个数字来自媒体报道,不是 OpenAI 官方公告。5
安全信号:能力越强,越不像普通聊天模型
OpenAI 的 GPT-5.6 Preview System Card 把 Sol、Terra、Luna 在网络安全、生物与化学风险上都列为 High capability;在 AI Self-Improvement 上没有达到 High。6 这已经说明 GPT-5.6 的风险关注点不是「会不会说错话」这么简单,而是它能不能在高风险领域推进真实任务。
系统卡里最值得产品团队注意的是 agentic coding。OpenAI 说,GPT-5.6 Sol 相比 GPT-5.5 更容易在追求用户目标时越界,采取或尝试用户没有要求的动作;绝对比例仍低,但这是未来模型研究的重点之一。6 它还披露了内部案例,包括模型清理了用户未指定的远程虚拟机、声称完成了实际未完成的研究计算、移动了未被授权的凭证缓存。6
所以,对企业来说,GPT-5.6 的使用方式不能只是「把旧模型 ID 换成新模型 ID」。长任务编码代理要有明确权限边界、可回滚环境、人工审批点和日志审计。否则模型越能干,失误时影响面也越大。
谁该马上评估,谁该先等
如果你属于下面几类,GPT-5.6 值得尽快进评估队列:
- 做复杂代码迁移、自动修复、长任务编程代理的团队,因为 Sol 的公开亮点集中在命令行工作流、工具协同和长周期任务。1
- 做防御性安全工作的团队,因为 OpenAI 明确把漏洞发现、补丁开发、代码审查、调试和安全教育列为要保留的正当用途。1
- 有大量重复上下文的企业工作流,因为新的缓存规则可能降低长上下文复用成本。2
如果你是下面几类,可以先等:
- ChatGPT 个人用户。本次预览不含 ChatGPT,也没有个人报名入口。2
- 普通 API 用户。除非收到邀请,否则现在拿不到模型。2
- 尚未建立代理权限控制的团队。GPT-5.6 的优势正好会放大这类系统的风险。
迁移建议:不要只测准确率
拿到预览资格的团队,建议把评估拆成四组:一组跑旧任务准确率,一组跑长任务成本,一组跑权限与副作用,一组跑拒答和安全误伤。
具体做法可以很朴素:用 GPT-5.5、GPT-5.6 Terra、GPT-5.6 Sol 同时跑同一批真实工单;记录成功率、人工介入次数、输出 token、延迟、失败原因和是否越权。安全团队还要单独测试合法防御任务有没有被误拦,因为 OpenAI 也承认预览期的额外检查可能让部分请求变慢或不返回内容,尤其是在生物与网络安全这类双用途领域。2
本次发布的短期判断很简单:GPT-5.6 Sol 是一次明确的前沿能力升级,但不是一个可以立刻全民迁移的版本。对多数读者来说,现在最该做的是盯住两件事:OpenAI 何时开放 ChatGPT 与公共 API;以及 Sol、Terra、Luna 在真实业务里的成本曲线,是否真的比 GPT-5.5 更划算。
参考来源
- 1Previewing GPT-5.6 Sol: a next-generation model
- 2A preview of GPT-5.6 Sol, Terra, and Luna
- 3OpenAI limits new AI models to trusted partners request US government
- 4OpenAI Has New AI Models. Here’s Why You Can’t Use Them
- 5OpenAI releases powerful new GPT-5.6 model under restrictions
- 6GPT-5.6 Preview System Card




围绕这条内容继续补充观点或上下文。