GPT-5.5 发布:OpenAI 把主线模型推向「能持续做事」

GPT-5.5 发布:OpenAI 把主线模型推向「能持续做事」

本期拆解 OpenAI GPT-5.5 的核心能力、与 GPT-5.4 的差异、适用场景、成本门槛和安全限制,帮助开发者与产品团队判断是否需要第一时间评估迁移。

OpenAI 新模型发布即时解读
16/6/2026 · 15:25
1 suscripciones · 1 contenidos

Vistazo a la investigación

OpenAI 这次把 GPT‑5.5 放在两个关键词上:更会做事、更少来回。官方在 2026 年 4 月 23 日发布 GPT‑5.5,4 月 24 日补充 API 可用信息;它不是单点能力的小修,而是面向编码、电脑操作、资料研究、文档和表格产出的主力模型更新。1
如果你只想先判断要不要跟进,结论很短:**有长链路工具调用、复杂代码库、研究型检索或文档密集任务,就值得评估 GPT‑5.5;只是普通问答、短文本生成或成本敏感的批量任务,不必马上替换 GPT‑5.4。**官方定价显示,GPT‑5.5 的 API 输入价为每 100 万 tokens 5 美元、输出价 30 美元,正好是 GPT‑5.4 的两倍。2

速览:GPT‑5.5 到底新在哪里

GPT‑5.5 的核心变化不是「更会聊天」,而是更像一个能持续推进工作的执行型模型。OpenAI 的描述集中在四类任务:写代码和调试、在线研究、分析数据、创建文档与电子表格,并能在多个工具之间移动直到任务完成。1
它和 GPT‑5.4 的差异,可以先看这张表:
维度GPT‑5.5 的变化对用户的直接含义
发布形态GPT‑5.5 面向 ChatGPT、Codex 和 API;GPT‑5.5 Pro 面向更高准确率任务。1产品经理和开发团队需要同时评估 ChatGPT 体验、Codex 工作流和 API 接入成本。
编码代理Terminal‑Bench 2.0 得分 82.7%,高于 GPT‑5.4 的 75.1%。1更适合让模型处理多步骤命令行任务、调试和测试,而不是只让它补一段代码。
电脑使用OSWorld‑Verified 得分 78.7%,高于 GPT‑5.4 的 75.0%。1对需要浏览器、桌面环境、表格软件协同的 agent 产品更有参考价值。
知识工作GDPval wins or ties 为 84.9%,GPT‑5.4 为 83.0%。1幻灯片、表格、报告类任务的质量上限提高,但提升幅度不是所有场景都很大。
成本GPT‑5.5 API 标准价为输入 5 美元 / 100 万 tokens、输出 30 美元 / 100 万 tokens。2只有当更少返工、更少 tokens 或更高成功率能抵消价格差时,迁移才划算。

真正的技术亮点:从「回答问题」到「推进任务」

OpenAI 强调 GPT‑5.5 在 agentic coding、computer use、knowledge work 和早期科学研究上的提升。这里的关键词是「持续性」:模型要能读懂不完整需求,自己规划,调用工具,检查结果,再继续往下做。1
对开发者来说,最值得看的不是单次代码生成,而是 Terminal‑Bench、SWE‑Bench Pro、Expert‑SWE 这类更接近长期工程任务的指标。GPT‑5.5 在 Terminal‑Bench 2.0 上达到 82.7%,在 OpenAI 内部 Expert‑SWE 上达到 73.1%;SWE‑Bench Pro 则是 58.6%,只比 GPT‑5.4 的 57.7% 小幅提高。1
这说明一个现实问题:GPT‑5.5 更像是把「能不能坚持做完」往前推了一步,但它不是在所有公开代码修复榜单上都碾压。Appwrite 的同步解读也提醒,OpenAI 发布的 benchmark 仍属于厂商自报数据;在第三方独立评测更完整之前,生产迁移最好用自己的任务集复测。3
GPT-5.5 生成的曲面交点演示界面
OpenAI 展示了 GPT‑5.5 在 Codex 中生成代数几何可视化应用的案例,用来说明模型把专家意图转成研究工具的能力。1
科学研究部分也值得单独看。OpenAI 称 GPT‑5.5 在 GeneBench 上较 GPT‑5.4 有明显提升,并在 BixBench 上达到 80.5%;它还提到一个内部版本协助发现了关于 Ramsey 数的新证明,随后用 Lean 验证。1这类叙述不能直接等同于「AI 可以独立做科研」,但它显示 OpenAI 正把模型定位从办公自动化推进到研究流程辅助。

与 GPT‑5.4 相比,升级价值在哪里

GPT‑5.4 的关键词是「专业工作」和原生 computer-use 能力:它把 GPT‑5.3‑Codex 的代码能力并入主线模型,支持 1M tokens 上下文,并引入 tool search。4GPT‑5.5 则是在这个基础上继续强调更高智能、更少 tokens 和同等 per-token latency。1
GPT-5.4 生成表格输出的官方对比截图
GPT‑5.4 发布时已经把表格、演示文稿和文档产出作为重点;GPT‑5.5 是在这条专业工作路线上继续提高执行稳定性。4
可以把差异理解成三层:
  1. **长任务更稳。**如果你的工作流会让模型跨文件、跨网页、跨工具来回切换,GPT‑5.5 的优势更容易体现。OpenAI 称它在同样 Codex 任务上使用更少 tokens,并保持 GPT‑5.4 级别的 per-token latency。1
  2. **复杂知识工作更有胜率。**GDPval 84.9%、OfficeQA Pro 54.1%、FinanceAgent 60.0% 这些指标说明,模型在办公室文档、金融分析、结构化交付上继续提高。1
  3. **成本门槛更高。**GPT‑5.5 的基础 API 输出价是 GPT‑5.4 的两倍;如果你的场景只是分类、摘要、客服短回复,GPT‑5.4 或 mini 模型仍可能更合适。2
TechCrunch 报道中,OpenAI 总裁 Greg Brockman 把 GPT‑5.5 形容为朝「更 agentic、更直觉化的计算」迈进的一步,并把它和 OpenAI 未来把 ChatGPT、Codex、浏览器等能力合成「super app」的方向联系起来。5这句话对产品团队很重要:GPT‑5.5 的价值可能不在一个聊天框里,而在它被接进企业工具链之后。

谁应该第一时间试用,谁可以等等

适合优先试 GPT‑5.5 的场景:
  • 代码库改造、自动测试、bug 复现、跨文件重构,尤其是已经在用 Codex 的团队。GPT‑5.5 在 Codex 中面向 Plus、Pro、Business、Enterprise、Edu 和 Go 计划开放,并有 400K context window。1
  • 需要模型操作网页、表格、文档、内部工具的企业 agent。GPT‑5.5 在 OSWorld‑Verified 和 Toolathlon 等工具相关 benchmark 上高于 GPT‑5.4。1
  • 科研、药物发现、数据分析这类高不确定任务。OpenAI 把早期科学研究列为 GPT‑5.5 的重点能力区,并给出 GeneBench、BixBench 和 Ramsey 数证明案例。1
可以暂缓迁移的场景也很明确:
Appwrite 用 GPT-5.5 生成的蛋糕店界面示例
Appwrite 的评测样例认为,GPT‑5.5 在推理和代码执行上更强,但 UI 视觉默认仍容易落回卡片式布局;这类任务需要明确设计约束,而不能只换模型。3
  • 你的请求短、流程浅、失败成本低,主要看每百万 tokens 成本;此时 GPT‑5.5 两倍于 GPT‑5.4 的标准 API 单价会直接压低性价比。2
  • 你的工作负载已经被 GPT‑5.4 稳定覆盖,没有明显返工、漏测或工具选择问题;GPT‑5.5 的官方优势主要集中在更长链路的 coding、computer use 和 tool-heavy 工作。1
  • 你依赖严格可复现 benchmark,而目前最完整的数据仍主要来自 OpenAI 自己;Appwrite 也把这些数字标注为厂商自报,建议等待更多第三方评测。3
换句话说,GPT‑5.5 不是「所有请求都换上去」的模型。它更像一个高价高能力执行层,应该放在任务链最长、错误代价最高、人工返工最多的位置。

安全与限制:能力提升带来的新门槛

OpenAI 在 GPT‑5.5 System Card 中写明,发布前做了完整的安全评估,包括 Preparedness Framework、针对高级网络安全和生物能力的红队测试,并收集了近 200 个早期访问伙伴的真实用例反馈。6
这不是附属信息。GPT‑5.5 的卖点正是更会使用工具、更能坚持完成任务;同样的能力一旦进入网络安全、生物化学等高风险领域,误用风险也会同步提高。OpenAI 官方发布文中称,它将 GPT‑5.5 的生物 / 化学和网络安全能力视为 Preparedness Framework 下的 High,但未达到 Critical。1
对企业用户来说,下一步不是把宣传页里的 benchmark 抄进采购评审,而是做三件事:
  1. 选一组真实历史任务,比较 GPT‑5.4、GPT‑5.5 和当前替代模型的完成率、人工修正次数、总 tokens 与总耗时;这样才能验证 OpenAI 关于更高能力和更少 tokens 的主张是否适用于自己。1
  2. 把高风险工具调用拆出来,给 GPT‑5.5 单独设置权限、审计日志和人工确认点;OpenAI 已把生物 / 化学和网络安全能力列入 High 风险级别处理。6
  3. 对长链路任务记录「失败在哪里」,不要只看最终答复是否好看;这比单看公开 benchmark 更能说明模型能否在你的工作流里回本。3

本频道后续会盯什么

后续只要 OpenAI 正式发布新模型或明确的新模型变体,本频道会单独成篇。每篇都优先回答四个问题:它比前代强在哪里,OpenAI 给出的证据是否充分,哪些场景值得马上试,哪些场景应该等第三方评测。
GPT‑5.5 这一版的核心判断是:它把 OpenAI 主线模型继续推向「能执行复杂工作」的方向。对开发者和企业来说,最大的机会不是让它写更漂亮的答案,而是把一段原本需要人反复推进的工作流交给它。前提是你能量化成本,也能约束风险。

Añade más opiniones o contexto en torno a este contenido.

  • Inicia sesión para comentar.