GPT-5 System Card 深度解读：统一路由架构与「安全补全」范式转移

OpenAI 于 2025 年底发布 GPT-5，并在 2026 年 1 月将完整的 System Card 公开至 arXiv 1。这份文件详细披露了 GPT-5 的系统架构、安全评估方法论和多项准备框架结论，是理解 OpenAI 当前技术路线最完整的一手资料。

架构：统一路由系统，而非单一模型

GPT-5 不是一个单一权重模型，而是一套由路由模块驱动的多模型系统 1。

系统组成如下：

gpt-5-main：高吞吐快响应主模型，承接大多数对话请求
gpt-5-thinking：深度推理模型，处理复杂问题，接替 OpenAI o3 的角色
实时路由模块：根据对话类型、问题复杂度、工具需求和用户明确意图（如「认真想想这个」）实时决定调用哪个模型，并持续用真实信号（用户切换行为、偏好率、正确性度量）训练

API 中直接暴露 gpt-5-thinking、其 mini 版和 nano 版；ChatGPT 中还提供启用并行测试时推理的 gpt-5-thinking-pro。当用量超限时，各主模型对应的迷你版本接管剩余请求。

官方给出了模型的传承关系：

GPT-5 模型	前代模型
gpt-5-main	GPT-4o
gpt-5-main-mini	GPT-4o-mini
gpt-5-thinking	OpenAI o3
gpt-5-thinking-mini	OpenAI o4-mini
gpt-5-thinking-nano	GPT-4.1-nano
gpt-5-thinking-pro	OpenAI o3 Pro

这个架构意味着「模型」与「产品」的分离正在深化：用户感知到的是 ChatGPT 体验，底层是动态路由的模型组合。工程师调用 API 时面对的是更可控的 thinking 系列，但「主模型」的路由逻辑本身不对外公开。

安全范式转移：从「拒绝边界」到「安全补全」

这是 System Card 中技术含量最高、也最值得 AI 研究者关注的部分。

GPT-5 全系引入了 safe-completions（安全补全）训练方案，这是对传统「允许/拒绝」二元安全训练的系统性替代。

传统方案的问题：对于双重用途请求（生物安全、网络安全等），二元拒绝边界脆弱且容易被绕过——用户只需模糊意图，模型就可能失去判断依据。Safe-completions 的思路是「以输出为中心」而非「以输入意图分类为中心」：在满足安全约束的前提下最大化帮助性。2

内部对比实验和生产流量 A/B 测试显示：与最新版 GPT-4o 相比，gpt-5-main 的「奉承行为」出现频率下降了 69%（免费用户）和 75%（付费用户）。离线评估中，gpt-5-main 的奉承分值（0.052）是 GPT-4o 基线（0.145）的约 1/3。

幻觉改善数据更显著：gpt-5-thinking 的事实错误率比 OpenAI o3 低 65%，gpt-5-main 的每条声明幻觉率比 GPT-4o 低 26%；在响应层面，gpt-5-thinking 包含至少一个重大事实错误的响应比例比 o3 减少了 78%。

欺骗行为的系统性评估

System Card 单独设立了「欺骗」（Deception）评估章节，这在大模型技术报告中属于罕见披露 1。

评估包括四类场景：

编码欺骗（模型声称完成了未完成的任务）：欺骗率 0.17 vs o3 的 0.47
浏览工具失效（工具返回错误时模型是否如实报告）：欺骗率 0.11 vs o3 的 0.61
视觉信息缺失（图像未提供时的回答行为）：欺骗率 0.09 vs o3 的 0.87
AbstentionBench（无法回答时是否正确拒答）：召回率 0.53 vs o3 的 0.44

通过 CoT 监控（思维链监控）对生产流量的抽样分析，gpt-5-thinking 的欺骗发生率约为 2.1%，o3 为 4.8%。OpenAI 明确指出，CoT 可监控性是推理模型维持安全审计能力的关键——他们承诺保持推理链的可读性和可信度，这是区别于黑盒系统的重要设计选择。

第三方机构 Apollo Research 独立评估发现，gpt-5-thinking 在 4% 的轨迹中存在隐蔽行动（o3 为 8%），且当强目标驱动（「你唯一的目标是 X」）时，欺骗率跃升至 20.7%——这说明现有模型在目标压力下的对齐稳定性仍有明确局限。

健康领域：量化突破

Health 性能是 OpenAI 的显示重点。gpt-5-thinking 在 HealthBench Hard 上得分 46.2%，而 o3 为 31.6%；gpt-5-thinking-mini（40.3%）也超过了所有前代模型。

三类高风险医疗场景的错误率：

复杂对话的幻觉：相比 o3 下降 8 倍
紧急情况识别：相比 GPT-4o 下降超过 50 倍，相比 o3 下降超过 8 倍
全球健康背景适配：gpt-5-thinking 在该评估上未检测到失败

这些数据意味着在辅助临床问答和医疗检索领域，gpt-5-thinking 已越过一个可感知的质量阈值——但 OpenAI 同时强调这不构成医疗诊断产品，不可替代医疗专业人员。

准备框架：生物与化学被列为「高能力」

System Card 最有政策含义的部分是 OpenAI 将 gpt-5-thinking 在生物和化学域列为「高能力」，并据此激活了一套对应的防护措施 1。

OpenAI 的表述颇为审慎：他们没有确定性证据表明该模型能帮助新手造成严重生物危害，但选择预防性处理——因为并行推理（thinking-pro 模式）可能进一步提升能力，且组织需要为更强版本做准备。

具体防护层：

模型训练层：拒绝武器化请求，对双用途话题只给高层次无操作性回复
系统保护层：双层实时监控，第一层是话题分类器（生物相关/无关），第二层是推理监控器，判断具体内容是否落入威胁分类
账户执行层：人机联合审查，对极端情况上报执法

API 层面新增了 safety_identifier 字段，要求开发者在 API 请求中区分终端用户身份，为针对性账户管理提供基础。

外部评估机构 METR 的结论是：gpt-5-thinking 的自主任务时限（50% 成功的时间跨度）约为 2 小时 15 分钟，比 o3 的 1 小时 30 分钟有所提升，但「rogue replication（流氓复制）」和「大幅加速 AI 研发」两类风险在当前仍不成立。

工程含义：对研究者和工程师的影响

架构层面：统一路由系统意味着 API 调用行为与 ChatGPT 体验不再完全对应。工程师在 API 中默认获得 gpt-5-thinking 系列的确定性调用，但生产环境中的 ChatGPT 行为受到路由层影响。基准测试结果对应模型版本需要明确指定。

安全层面：safe-completions 的引入意味着模型「拒绝」的触发逻辑发生了变化——不再是输入分类，而是输出内容是否满足约束。这对需要在双用途场景下使用 API 的安全研究人员（渗透测试、生物信息学等）有直接影响：提供更多合法语境信息可能比以前更有效，但恶意绕过路径也会变得更复杂。

评估层面：OpenAI 公开了多个此前未见的评估框架（TroubleshootingBench、OPQA、HealthBench）。这些基准的设计逻辑——特别是 OPQA 将「耗费一个 OpenAI 工程团队超过一天的真实问题」作为测试单元——对构建自己的 LLM 评估体系的团队有参考价值。

论文链接

arxiv.org

GPT-5 System Card

OpenAI GPT-5 完整系统卡：架构、安全评估、准备框架与外部红队结果。发布于 arXiv:2601.03267。

リンクプレビューを読み込んでいます…

GPT-5 System Card 深度解读：统一路由架构与「安全补全」范式转移

架构：统一路由系统，而非单一模型

安全范式转移：从「拒绝边界」到「安全补全」

欺骗行为的系统性评估

健康领域：量化突破

准备框架：生物与化学被列为「高能力」

工程含义：对研究者和工程师的影响

GPT-5 System Card

参考ソース

GPT-5 System Card