GPT-5.5:OpenAI 最新旗舰的技术路线解读

GPT-5.5:OpenAI 最新旗舰的技术路线解读

OpenAI 于 2026 年 4 月 23 日发布 GPT-5.5,Terminal-Bench 2.0 达 82.7%、ARC-AGI-2 提升 11.7pp。本文从智能体编码、科学研究、安全机制三个维度解读核心数据,并分析「更少 token 完成更多」背后的技术路线信号。

三大公司大模型论文
2026/5/20 · 13:11
1 订阅 · 1 内容

研究速览

发布时间:2026 年 4 月 23 日 | 来源:OpenAI 官方公告 + System Card
OpenAI 在 4 月 23 日正式推出 GPT-5.5,随之发布的 System Card 明确了这是一次面向「智能体时代」的系统级升级,而不只是单项基准跑分的迭代。1
对 AI 研究者和工程师来说,GPT-5.5 最值得关注的不是绝对得分,而是 「更少 token,完成更复杂任务」 这条技术路线——它暗示 OpenAI 当前的核心优化目标已经从「扩参数拉分」转向「系统效率」。

关键技术提升

智能体编码:端到端解决率显著提升

GPT-5.5 在编码能力上的跃升是本次发布最具体的信号。2
基准GPT-5.5GPT-5.4提升幅度
Terminal-Bench 2.082.7%75.1%+7.6pp
Expert-SWE(内部)73.1%68.5%+4.6pp
SWE-Bench Pro(公开)58.6%57.7%+0.9pp
ARC-AGI-2(Verified)85.0%73.3%+11.7pp
Terminal-Bench 2.0 的 82.7% 代表当前公开测试的最高成绩。更值得注意的是 Expert-SWE——这是 OpenAI 的内部基准,考察的是真实工程项目中「从 0 到可合并 PR」的端到端能力,73.1% 意味着跨越了「需要人工频繁介入」和「可以独立推进」之间的某条实用门槛。
ARC-AGI-2 提升幅度最大(+11.7pp),达到 85.0%。ARC-AGI-2 专门考察需要跨上下文长推理的问题,这一提升与 OpenAI 公告中强调的「跨上下文推理能力改善」相互印证。

知识工作与科学研究:效率而非只是准确率

GPT-5.5 在 GDPval(跨 44 个职业的知识工作产出)得分 84.9%,OSWorld-Verified(真实计算机环境自主操作)78.7%,均优于 GPT-5.4。1
科学研究方向有两个具体案例值得关注:
  • 数学研究者 Bartosz Naskręcki 用 GPT-5.5 在 Codex 中 11 分钟内完成了代数几何二次曲面相交可视化,并输出魏尔斯特拉斯模型。
Surface Intersection Lab 界面,显示 GPT-5.5 辅助生成的代数几何可视化,两个半透明二次曲面及红色高亮交线
GPT-5.5 在 Codex 中辅助生成的代数几何可视化界面 / 来源:OpenAI
  • 一位免疫学研究者用 GPT-5.5 Pro 分析约 28,000 个基因、62 个样本的基因表达数据集,输出详细研究报告,这项工作原本需要研究团队数月完成。
GeneBench(遗传学多阶段科学分析)得分 25.0%,对比 GPT-5.4 的 19.0%,提升幅度(+6pp)在各类基准中属于较高段位。BixBench(真实生物信息分析)得分 80.5%(GPT-5.4 为 74.0%),是该基准当前已发布模型中的最高分。

安全机制:「能力与护栏同步升级」

System Card 特别指出,GPT-5.5 配备了 OpenAI 迄今最完善的安全防护机制,包括:2
  • 针对高级网络安全和生物学能力的专项红队测试
  • 发布前收集了近 200 家可信早期合作方的真实场景反馈
  • 对于 GPT-5.5 Pro(并行计算设置),部分场景单独评估,因为该配置在风险状态上可能与标准版存在差异
CyberGym 网络安全基准得分 81.8%(GPT-5.4 为 79.0%),Capture-the-Flag 内部测试达到 88.1%(+4.4pp)——这类能力提升本身是双刃剑,说明 OpenAI 在发布前做专项安全评估的必要性。

技术路线信号:「更少 token 完成更多」意味着什么

这是本次发布对研究者影响最直接的判断:
OpenAI 在公告中明确表示,GPT-5.5 「完成相同任务消耗的 token 数量显著更少,同时保持和 GPT-5.4 相同的每 token 延迟」。在 Artificial Analysis 编码指数中,GPT-5.5 以「竞品一半的成本」实现当前最优智能水平。3
这条路线的含义:OpenAI 当前的核心优化方向不是单纯的参数规模增长,而是在固定推理延迟约束下,提升每次前向传播的「问题分辨率」。这与 Anthropic 在 Claude 4 系列中强调的「长上下文利用率」、Google Gemini 系列的「多模态路由效率」形成了各自不同的技术侧重,三家路线正在分叉。
研究者和工程师可以据此调整对 GPT-5.x 系列的使用策略:当任务涉及长流程智能体编码多步骤科学分析时,GPT-5.5 的 token 效率优势会被放大;对话式问答或单轮生成场景中,优势可能不如多步骤任务明显。

访问范围

当前已向 ChatGPT 和 Codex 的 Plus、Pro、Business、Enterprise 用户开放;API 端点近期将跟进。GPT-5.5 Pro(并行计算版)目前仅限 ChatGPT 的 Pro、Business、Enterprise 用户。1

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。