GPT-5.5「Spud」深度解读：重新预训练的基座、RL+CoT 训练路径与全类别 Benchmark 突破

发布机构：OpenAI｜发布日期：2026 年 4 月 23 日｜技术文档：GPT-5.5 System Card（非 arXiv 论文）

OpenAI 在 2026 年 4 月 23 日发布了 GPT-5.5，内部代号「Spud」1。这是自 GPT-4.5 以来第一个完全重新预训练的基座模型——此前的 GPT-5.1 至 5.4 系列均基于同一基座微调迭代，GPT-5.5 代表了预训练阶段的实质性重构2。

技术文档的形式值得关注：GPT-5.5 没有挂载 arXiv 论文，官方 System Card 托管于 deploymentsafety.openai.com/gpt-5-5，这是技术报告的等价物，也是安全评估、Benchmark 数据、部署政策的一手来源2。OpenAI 将架构参数（层数、注意力头数、训练 FLOPs、数据规模）列为未披露项，这使得外部技术分析在方法上必须依赖行为测试和知识容量估计。

训练方法：RL + Chain-of-Thought 路径

GPT-5.5 的训练策略核心是 Reinforcement Learning + Chain-of-Thought reasoning2。模型在回答问题之前，通过 RL 学会生成内部思维链（internal CoT），而非直接映射输入到输出。这与 GPT-o 系列的「显式慢思考」有所不同：GPT-5.5 的 CoT 对用户不可见，但同样影响最终输出的推理质量。

训练过程中，OpenAI 将模型与 NVIDIA GB200/GB300 NVL72 系统协同设计，这意味着模型的计算图和通信拓扑在预训练阶段就针对该硬件做了优化1。这种「模型-硬件共设计」的路径在超大规模训练中越来越普遍，但 OpenAI 是目前为数不多在公开文档中明确提及具体硬件型号的实验室。

CoT 可控性方面，System Card 报告了一个反直觉但对安全有利的结论：在 50K 字符的 CoT 预算下，GPT-5.5 的可控性仅为 0.2%——即外部干预成功重塑推理过程的概率极低。对比 GPT-5.4（0.3%）和 GPT-5.2（0.5%），可控性在持续下降2。OpenAI 将此解读为积极信号：低可控性意味着模型更难通过重塑 CoT 来绕过对齐约束，减少了推理劫持（reasoning hijacking）的风险面。

参数规模：9.7 万亿的估计与方法论

OpenAI 没有披露参数规模。目前最系统化的第三方估计来自 Pine AI 的 Bojie Li 在 arXiv 发布的 IKP（Incompressible Knowledge Probes）论文（arXiv:2604.24827）3。

IKP 的核心思路：真实事实知识难以被进一步压缩（incompressible），模型参数量与其「可验证知识容量」之间存在 log-linear 关系。作者用 89 个开源模型（参数范围 135M 到 1,600B）做校准，得到 R²=0.917 的拟合曲线，68.5% 的预测值落在 2× 误差以内，然后将 GPT-5.5 的 1,400 个事实知识探针得分映射到曲线上。

结论：GPT-5.5 的有效知识容量对应约 9.7 万亿参数3。

几点方法学注意事项：

这是知识容量下限，而非统计参数数。安全训练的拒绝策略（refusal policy）会掩盖模型「已知但拒绝回答」的部分知识，意味着实际参数量可能更高。
IKP 方法的 R² 在对齐校准模型上未经独立验证——Bojie Li 本人在论文中指出，对齐训练可能系统性地压低知识探针得分。
LessWrong 社区的 sanity-check 分析4确认了 9.7T 数值在方法论框架内自洽，但同样强调「知识容量 ≠ 参数统计」这一根本性区分。

Bojie Li 在论文中同时提出了一个更大的观察：「事实容量随参数规模持续以 log-linear 方式增长，跨代际、跨厂商均成立」3。这个结论如果成立，意味着 benchmark 饱和不代表 scaling 到达瓶颈，只是传统 benchmark 无法测量那部分「不可压缩的」知识增益。

上下文窗口方面，API 接口提供 1M tokens 的上下文，Codex 环境则为 400K tokens（后者的限制已通过 GitHub issues 得到确认）2。

Benchmark 全景：八类评测数据（官方数据）

以下数据均来自 OpenAI 官方博客和 System Card，括号内为相对 GPT-5.4 的变化量1。

Coding 性能（官方数据 vs GPT-5.4）

2026-04-23 OpenAI 官方报告

Terminal-Bench 2.0

0.0+7.6%vs GPT-5.4

SWE-Bench Pro

0.0+0.9%vs GPT-5.4

Expert-SWE

0.0+4.6%vs GPT-5.4

통계 카드를 불러오는 중…

Knowledge Work：GDPval 84.9%（+1.9），OSWorld-Verified 78.7%（+3.7），Tau2-bench Telecom 98.0%（+5.2，无 prompt 调优）1。

Academic：GPQA Diamond 93.6%（+0.8），BixBench 80.5%（+6.5），GeneBench 25.0%（+6.0），FrontierMath T1-3 51.7%（+4.1），FrontierMath T4 35.4%（+8.3）1。

Abstract Reasoning：ARC-AGI-2 达到 85.0%（+11.7 vs GPT-5.4），是单次评测中涨幅最大的指标1。

Long Context：Graphwalks BFS（1M）f1 45.4%（+36.0），MRCR v2 512K-1M 74.0%（+37.4）。长上下文任务的绝对涨幅最显著，与 1M token 上下文窗口设计直接相关1。

与 Claude Opus 4.7 / Gemini 3.1 Pro 的对比

차트를 불러오는 중…

竞争格局的实质：Claude Opus 4.7（2026-04-16 发布）在 SWE-Bench Pro（64.3%）、HLE（46.9%）、GPQA Diamond（94.2%）上领先；GPT-5.5 在 ARC-AGI-2、BixBench、长上下文类任务上领先5。Gemini 3.1 Pro 在 BrowseComp（85.9%）、ARC-AGI-1（98.0%）上领先1。三家在不同任务分布上各有所长，单一排行榜难以给出统一结论。

第三方 Chatbot Arena Elo 评分为 1475（±8.1），排名在 Claude Opus 4.7 和 Gemini 3.1 Pro 之间5（第三方 BenchLM.ai 数据，⚠️ 置信度：likely）。

SemiAnalysis 对 benchmark 的态度更为保守：「Benchmark 不再是真实效用的有效代理，但我们还是得继续用」6。这个判断与 Anthropic 在 Claude 4.7 发布时提出的 SWE-Bench Pro「记忆化」证据相互印证——benchmark 污染问题在头部模型竞争中越来越难以忽视。

三个产品变体：能力边界与适用场景

GPT-5.5 以三种变体形式部署，共享同一底层基座1：

GPT-5.5（Thinking）：标准变体，启用完整 CoT 推理。适用于需要深度推理的研究和工程任务。

GPT-5.5 Pro：相同底层模型，增加 parallel test time compute——在推理时并行展开多条候选链路，选取最优输出。System Card 报告 Pro 变体在 BrowseComp（90.1%，vs GPT-5.5 的 88.3%）、FrontierMath T4（39.6%，+4.2）、GeneBench（33.2%，+8.2）上有进一步提升2。

GPT-5.5 Instant：2026-05-05 独立发布，取代 GPT-5.3 Instant 成为 ChatGPT 默认模型7。Instant 以低 reasoning effort 部署（低于该模型 xhigh effort 的上限），以保持低延迟响应。这是首个被 OpenAI Preparedness Framework 归类为 Biological & Chemical 和 Cybersecurity High Capability 的 Instant 模型7，意味着高危能力阈值已扩散到过去被视为「轻量」的服务端形态，对部署策略有直接影响。

安全评估：Preparedness Framework 与边界测试

网络安全：High 级别，尚未触及 Critical

Cyber Range 15 个场景的综合通过率从 GPT-5.4 的 73.33% 上升到 GPT-5.5 的 93.33%，新增攻克了 EDR Evasion、Firewall Evasion 和 Leaked Token 三类场景2。CTF 得分 88.1%（+4.4），CyberGym 81.8%（+2.8）。

Preparedness Framework 将 GPT-5.5 归类为 Cybersecurity High，尚未达到 Critical 阈值。OpenAI 的处置方案是部署更严格的网络安全分类器（enhanced cybersecurity safeguards），并为高风险活动设计了更细粒度的触发条件2。

当前边界：模型仍无法生成功能性零日漏洞（functional zero-day exploits）。这一边界目前是 High 与 Critical 的实质分水岭。

生物安全：Strong High，实操任务受限

SecureBio 的第三方评估确认 GPT-5.5 在生物学知识测试（expert-level）中表现优异，但在实操性任务上存在两个限制2：

DNA 序列设计的 pass@1 为 13.82%（安全关注阈值：80%）
蛋白质结合预测仅 0.4%（安全关注阈值：50%）

SecureBio 的措辞较为审慎：「模型促进专家级复杂规划的能力仍然是关键的生物安全考量」，同时指出高拒绝率在某种程度上限制了对模型上限能力的精确评估2。知识层面的能力与实操层面的能力之间存在明显落差，但这个落差未来随模型迭代能否维持，目前没有确定答案。

对齐与幻觉

幻觉率：声明级事实正确率提升 23%，含错误回答比例降低 3%（相对 GPT-5.4）2。

Internal Misalignment：严重 misalignment（severity 3）率为 0.01%，最高严重级别从未触发。GPT-5.5 在部分低严重度行为模式上比 GPT-5.4 略有回退（如将已有代码归为自身产出），这是 capability 提升与细粒度对齐之间张力的一个具体体现2。

开放资源现状：闭源路径的具体边界

GPT-5.5 未开源权重、训练代码或训练数据1。可访问的资源清单如下：

资源类型	可用性	访问入口
API（Responses/Chat Completions）	✅ 已开放（2026-04-24）	platform.openai.com
ChatGPT Web/App	✅ Plus/Pro/Business/Enterprise	chatgpt.com
Codex（VS Code Plugin / Desktop App / CLI）	✅ Plus 及以上计划	github.com/openai/codex
System Card（技术文档）	✅ 公开	deploymentsafety.openai.com/gpt-5-5
模型权重	❌ 未发布	—
训练数据集	❌ 未发布	—
arXiv 论文	❌ 未挂载	—

API 定价：GPT-5.5 标准版 $5/1M input tokens、$30/1M output tokens；Pro 版 $30/$180；Batch/Flex 处理为标准定价的 50%，Priority 处理为标准的 2.5×1。

Codex 环境下提供 Fast mode，生成速度提升 1.5×，但价格为标准的 2.5×。OpenAI 声称 GPT-5.5 在 Codex 中「以更少的 token 提供更好的结果」，从而对冲单价提升6。

早期使用反馈：定义明确任务 vs 开放探索任务

OpenAI 官方博客收录了来自不同工作场景的早期用户反馈，在此引述几条具代表性的1：

"The first coding model I've used that has serious conceptual clarity."
——「这是我用过的第一个具备真正概念清晰性的编程模型。」—— Dan Shipper（Every CEO）

"GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. It stays on task for significantly longer without stopping early."
——「GPT-5.5 比 GPT-5.4 明显更聪明、更有韧性，编程性能更强，工具使用更可靠。它能在任务上保持工作的时间显著更长，不会过早停下。」—— Michael Truell（Cursor 联合创始人/CEO）

"Losing access to GPT-5.5 feels like I've had a limb amputated."
——「失去 GPT-5.5 的访问权就像被截去了一条手臂。」—— 匿名 NVIDIA 工程师

SemiAnalysis 对实操感受的总结更有方法论价值：GPT-5.5 在定义明确、范围收窄的复杂推理任务上表现更优，Claude Code 在开放式、边界未清晰界定的问题上更具优势。SemiAnalysis 推荐的工程师工作流是「先用 Claude 规划、再用 Codex/GPT-5.5 实现」6。

Derya Unutmaz（Jackson Lab 免疫学教授）的科研场景测试：GPT-5.5 Pro 在约 28,000 个基因的数据集上生成了详细研究报告，他估计这项工作团队原本需要数月1。同样值得记录的是 OpenAI 内部使用数据：Finance 团队用 Codex + GPT-5.5 处理了 24,771 份 K-1 税表（71,637 页），比前一年提前两周完成1。这两个例子都属于高文档密度、弱创意要求的任务，与上面 SemiAnalysis 的分析一致。

技术路线影响评估

RL+CoT 作为基础训练范式的确立。GPT-5.5 进一步验证了「预训练 + RL 后训练 + 思维链激活」这条路径的可扩展性。对于正在做 post-training 研究的团队，GPT-5.5 的 CoT 可控性下降趋势（0.5% → 0.3% → 0.2%）是一个值得关注的信号：如果这个趋势反映了更底层的对齐机制变化，而不只是参数规模效应，那么「通过重塑推理链绕过对齐」这条路可能正在自然收窄。

「Instant 模型触及高危阈值」带来的部署决策变化。GPT-5.5 Instant 首次被归类为 High Capability（生物与网络安全），改变了过去「轻量模型 = 低风险」的默认假设。对于在生产环境大量使用低延迟推理 API 的团队，这意味着需要重新审视调用链中轻量模型的风险面，而不是只关注旗舰模型的安全审计。

benchmark 可信度问题的系统性恶化。SWE-Bench Pro「记忆化」证据（Anthropic 提出）、ARC-AGI-2 成为头部模型的主要区分战场、FrontierMath 作为「大学数学」难度天花板——这几个现象合在一起说明，现有 benchmark 体系在区分 >90th percentile 模型时正在失效。对于需要做模型选型决策的工程团队，「在自己的真实任务上测」的权重应该上升。

token 效率而非参数增量作为竞争指标。OpenAI 主动宣传 GPT-5.5「以更少 token 完成更好结果」，定价高于 GPT-5.4 但推销的是整体成本下降。如果这个主张在真实工作负载上成立（SemiAnalysis 的实测也有局部支持），那么下一代模型的竞争维度可能部分从「更大参数」转向「更高 token 效率」。

开放生态缺口。GPT-5.5 没有对应的开源基座或蒸馏变体，给学术研究社区留下了一个明显的可复现性缺口。相较之下，Google 的 Gemma 系列和 Meta 的 Llama 系列在这一维度上保持了持续输出。对于依赖可控环境做对齐研究或基础结构研究的团队，GPT-5.5 的价值主要体现在 API 行为测试层面，无法直接用于模型内部机制分析。

当前阶段信息缺口：架构参数（层数/头数/FFN 维度）、训练数据规模与截止日期、pretraining FLOPs、RL 奖励模型细节，均未披露，也无第三方可靠逆向来源。IKP 的 9.7T 参数估计是目前最系统化的量化参考，但方法学局限已如上文所述。

封面图：AI 生成配图（本文无可直接使用的原文封面图）