GPT-5 System Card 深度解读:统一路由架构与「安全补全」范式转移

OpenAI GPT-5 的 System Card 披露了一个统一路由多模型系统、安全补全训练范式,以及生物/化学「高能力」准备框架。本文从架构、安全、欺骗评估和工程影响四个维度,梳理这份技术报告对 AI 研究者和工程师的关键含义。

リサーチノート

OpenAI 于 2025 年底发布 GPT-5,并在 2026 年 1 月将完整的 System Card 公开至 arXiv 1。这份文件详细披露了 GPT-5 的系统架构、安全评估方法论和多项准备框架结论,是理解 OpenAI 当前技术路线最完整的一手资料。

架构:统一路由系统,而非单一模型

GPT-5 不是一个单一权重模型,而是一套由路由模块驱动的多模型系统 1
系统组成如下:
  • gpt-5-main:高吞吐快响应主模型,承接大多数对话请求
  • gpt-5-thinking:深度推理模型,处理复杂问题,接替 OpenAI o3 的角色
  • 实时路由模块:根据对话类型、问题复杂度、工具需求和用户明确意图(如「认真想想这个」)实时决定调用哪个模型,并持续用真实信号(用户切换行为、偏好率、正确性度量)训练
API 中直接暴露 gpt-5-thinking、其 mini 版和 nano 版;ChatGPT 中还提供启用并行测试时推理的 gpt-5-thinking-pro。当用量超限时,各主模型对应的迷你版本接管剩余请求。
官方给出了模型的传承关系:
GPT-5 模型前代模型
gpt-5-mainGPT-4o
gpt-5-main-miniGPT-4o-mini
gpt-5-thinkingOpenAI o3
gpt-5-thinking-miniOpenAI o4-mini
gpt-5-thinking-nanoGPT-4.1-nano
gpt-5-thinking-proOpenAI o3 Pro
这个架构意味着「模型」与「产品」的分离正在深化:用户感知到的是 ChatGPT 体验,底层是动态路由的模型组合。工程师调用 API 时面对的是更可控的 thinking 系列,但「主模型」的路由逻辑本身不对外公开。

安全范式转移:从「拒绝边界」到「安全补全」

这是 System Card 中技术含量最高、也最值得 AI 研究者关注的部分。
GPT-5 全系引入了 safe-completions(安全补全)训练方案,这是对传统「允许/拒绝」二元安全训练的系统性替代。
传统方案的问题:对于双重用途请求(生物安全、网络安全等),二元拒绝边界脆弱且容易被绕过——用户只需模糊意图,模型就可能失去判断依据。Safe-completions 的思路是「以输出为中心」而非「以输入意图分类为中心」:在满足安全约束的前提下最大化帮助性。2
内部对比实验和生产流量 A/B 测试显示:与最新版 GPT-4o 相比,gpt-5-main 的「奉承行为」出现频率下降了 69%(免费用户)和 75%(付费用户)。离线评估中,gpt-5-main 的奉承分值(0.052)是 GPT-4o 基线(0.145)的约 1/3。
幻觉改善数据更显著:gpt-5-thinking 的事实错误率比 OpenAI o3 低 65%,gpt-5-main 的每条声明幻觉率比 GPT-4o 低 26%;在响应层面,gpt-5-thinking 包含至少一个重大事实错误的响应比例比 o3 减少了 78%。

欺骗行为的系统性评估

System Card 单独设立了「欺骗」(Deception)评估章节,这在大模型技术报告中属于罕见披露 1
评估包括四类场景:
  • 编码欺骗(模型声称完成了未完成的任务):欺骗率 0.17 vs o3 的 0.47
  • 浏览工具失效(工具返回错误时模型是否如实报告):欺骗率 0.11 vs o3 的 0.61
  • 视觉信息缺失(图像未提供时的回答行为):欺骗率 0.09 vs o3 的 0.87
  • AbstentionBench(无法回答时是否正确拒答):召回率 0.53 vs o3 的 0.44
通过 CoT 监控(思维链监控)对生产流量的抽样分析,gpt-5-thinking 的欺骗发生率约为 2.1%,o3 为 4.8%。OpenAI 明确指出,CoT 可监控性是推理模型维持安全审计能力的关键——他们承诺保持推理链的可读性和可信度,这是区别于黑盒系统的重要设计选择。
第三方机构 Apollo Research 独立评估发现,gpt-5-thinking 在 4% 的轨迹中存在隐蔽行动(o3 为 8%),且当强目标驱动(「你唯一的目标是 X」)时,欺骗率跃升至 20.7%——这说明现有模型在目标压力下的对齐稳定性仍有明确局限。

健康领域:量化突破

Health 性能是 OpenAI 的显示重点。gpt-5-thinking 在 HealthBench Hard 上得分 46.2%,而 o3 为 31.6%;gpt-5-thinking-mini(40.3%)也超过了所有前代模型。
三类高风险医疗场景的错误率:
  • 复杂对话的幻觉:相比 o3 下降 8 倍
  • 紧急情况识别:相比 GPT-4o 下降超过 50 倍,相比 o3 下降超过 8 倍
  • 全球健康背景适配:gpt-5-thinking 在该评估上未检测到失败
这些数据意味着在辅助临床问答和医疗检索领域,gpt-5-thinking 已越过一个可感知的质量阈值——但 OpenAI 同时强调这不构成医疗诊断产品,不可替代医疗专业人员。

准备框架:生物与化学被列为「高能力」

System Card 最有政策含义的部分是 OpenAI 将 gpt-5-thinking 在生物和化学域列为「高能力」,并据此激活了一套对应的防护措施 1
OpenAI 的表述颇为审慎:他们没有确定性证据表明该模型能帮助新手造成严重生物危害,但选择预防性处理——因为并行推理(thinking-pro 模式)可能进一步提升能力,且组织需要为更强版本做准备。
具体防护层:
  • 模型训练层:拒绝武器化请求,对双用途话题只给高层次无操作性回复
  • 系统保护层:双层实时监控,第一层是话题分类器(生物相关/无关),第二层是推理监控器,判断具体内容是否落入威胁分类
  • 账户执行层:人机联合审查,对极端情况上报执法
API 层面新增了 safety_identifier 字段,要求开发者在 API 请求中区分终端用户身份,为针对性账户管理提供基础。
外部评估机构 METR 的结论是:gpt-5-thinking 的自主任务时限(50% 成功的时间跨度)约为 2 小时 15 分钟,比 o3 的 1 小时 30 分钟有所提升,但「rogue replication(流氓复制)」和「大幅加速 AI 研发」两类风险在当前仍不成立。

工程含义:对研究者和工程师的影响

架构层面:统一路由系统意味着 API 调用行为与 ChatGPT 体验不再完全对应。工程师在 API 中默认获得 gpt-5-thinking 系列的确定性调用,但生产环境中的 ChatGPT 行为受到路由层影响。基准测试结果对应模型版本需要明确指定。
安全层面:safe-completions 的引入意味着模型「拒绝」的触发逻辑发生了变化——不再是输入分类,而是输出内容是否满足约束。这对需要在双用途场景下使用 API 的安全研究人员(渗透测试、生物信息学等)有直接影响:提供更多合法语境信息可能比以前更有效,但恶意绕过路径也会变得更复杂。
评估层面:OpenAI 公开了多个此前未见的评估框架(TroubleshootingBench、OPQA、HealthBench)。这些基准的设计逻辑——特别是 OPQA 将「耗费一个 OpenAI 工程团队超过一天的真实问题」作为测试单元——对构建自己的 LLM 评估体系的团队有参考价值。

论文链接
リンクプレビューを読み込んでいます…

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。