OpenAI 日报：GPT-5 进实验室，Appia 标准化评估启动

过去 24 小时，OpenAI 的新增公开材料不集中在模型或 API 大版本，而是分成几条更分散的线索：一个 GPT‑5 Pro 辅助免疫学研究的案例、一项面向高级 AI 评估的标准化工作、Omio 的企业落地数据、DevDay 2026 开放申请，以及状态页上的一次文件上传下载故障。

主线	已确认动态	读者该看什么
科学应用	OpenAI 披露免疫学家 Derya Unutmaz 用 GPT‑5 Pro 重看 2022 年 T 细胞实验，模型给出了 IL‑2 相关机制假设，并复现了一个未发表实验的方向性预测。1	重点不是「AI 替代科学家」，而是模型开始进入假设筛选和实验优先级判断。
治理标准	OpenAI 称其参与发起 Appia Foundation，该组织由 Linux Foundation 承载，目标是把国际标准和已有框架转成可复用的评估规格。2	高级模型评估正在从「各家自测」走向第三方、跨司法辖区可互认的证据链。
企业落地	Omio 披露其 ChatGPT/Codex 使用情况：连接 3,000+ 交通服务商、覆盖 47 个国家，部分新产品开发 effort 降到过去约 20%。3	OpenAI 继续用客户案例证明 Codex 和 ChatGPT 的企业工作流价值。
开发者活动	OpenAI Developer Community 发布 DevDay 2026 申请信息：9 月 29 日在旧金山举行，7 月 10 日前申请，开场 keynote 将直播。4	开发者如果要提前接触平台路线图，这是一条需要加入日程的信号。
服务状态	状态页新增「ChatGPT 上传和下载文件错误升高」事件，页面显示已恢复；FedRAMP workspaces 与 API orgs 性能降级仍处于 investigating。5 6	个人用户可忽略已恢复事件；受 FedRAMP 影响的组织还要继续看状态页。

GPT‑5 Pro 进入免疫学假设筛选

OpenAI 今天讲了一个很具体的科研案例。免疫学家 Derya Unutmaz 在 2022 年做过一组 T 细胞实验，问题是葡萄糖如何影响 T 细胞分化。低葡萄糖环境和一种葡萄糖类似物 deoxyglucose 按理说都会限制能量供给，但实验结果不同：deoxyglucose 处理后的 T 细胞更明显地转向炎症反应相关的 Th17 方向。这个差异当时没解释清楚，实验被搁置了。1

Unutmaz 后来把结果交给 GPT‑5 Pro 分析。OpenAI 披露，模型提出的解释是：deoxyglucose 干扰了 IL‑2 蛋白构建，而 IL‑2 本来可以抑制 T 细胞成为 Th17 细胞；这相当于移除了一个阻挡 Th17 分化的机制。Unutmaz 还用一个尚未发表的 CD8+ T 细胞与淋巴瘤实验做了预测检验，OpenAI 称 GPT‑5 Pro 预测到了这些细胞杀伤淋巴瘤细胞能力增强的方向。1

Derya Unutmaz 相关案例配图 — OpenAI 为 Derya Unutmaz 免疫学案例使用的配图。1

这个案例需要克制理解。它不是说 GPT‑5 Pro 独立完成了一项生物学发现。更准确的说法是，模型在专家给出实验结果后，提出了一个专家可以判断、可以继续验证的机制假设。对科研团队来说，价值在于缩短「翻文献、找机制、排实验优先级」的时间；对安全团队来说，生物和化学方向的能力提升也会同步抬高滥用风险，OpenAI 在同一篇文章里把它接回 Preparedness Framework。1

Appia Foundation 把「可信评估」往工程化推了一步

另一条官方更新来自治理侧。OpenAI 称其帮助创立 Appia Foundation，并由 Linux Foundation 承载。Appia 要做的不是再写一份原则宣言，而是开发开放、模块化的规格，把国际标准和已有框架翻译成 AI 价值链各环节可执行的评估标准。2

高级 AI 评估标准相关配图 — OpenAI 在「Helping build shared standards for advanced AI」相关入口使用的抽象配图。2

这条动态和 OpenAI 过去几个月的安全治理材料连在一起：OpenAI 提到其 frontier AI 民主治理蓝图、第三方评估 playbook、与 US CAISI 和 UK AISI 的测试合作，以及 Preparedness Framework 和 Frontier Governance Framework。重点是把「模型、工具权限、评估 harness、能力诱导方法、可用资源、验证检查」这些评估细节说清楚，让不同机构做出来的评估证据可以比较、复用和互认。2

对企业和政策团队来说，这比单次模型发布更慢热，但影响更深。高级模型以后要进入政府、关键基础设施、金融、医疗等场景，问题会从「这个模型跑分多高」变成「谁评估、按什么流程评估、证据能不能被监管和客户接受」。Appia 解决的正是这层信任接口。

Omio 案例：OpenAI 继续把 Codex 放进企业生产率叙事

OpenAI 还发布了 Omio 的客户案例。Omio 是多式联运旅行平台，OpenAI 文章称它连接 3,000 多家交通服务商，覆盖 47 个国家，并把 OpenAI 模型接入实时交通库存和价格数据，让用户用自然语言查询可预订行程。3

这篇案例里更值得看的是内部工作流数字。Omio CTO Tomas Vocetka 说，公司先在组织内推广 ChatGPT，后续把 Codex 深入嵌入工程流程；OpenAI 文章称，Omio 估计许多产品现在只需要过去约 20% 的开发时间，一些原本需要多个开发者一个季度完成的项目，现在可由一名开发者在约一个月内完成。3

这些数字来自客户案例，不等同于外部审计后的行业基准。它们的用处在于给企业读者一个比较具体的参照：OpenAI 正在把 ChatGPT、Codex、API 打包成「客户体验 + 内部执行」两条线，而不是只讲聊天机器人。

DevDay 开放申请，状态页新增一次已恢复故障

开发者侧，OpenAI Developer Community 发布 DevDay 2026 信息：活动将在 9 月 29 日于旧金山举行，申请截止到 7 月 10 日，开场 keynote 会直播。帖子没有展开技术议程，只说会有 technical sessions、测试新内容、与 OpenAI 工具团队交流。4

服务状态方面，OpenAI 状态页新增一次 ChatGPT 文件上传和下载错误升高事件。页面显示该事件经历 investigating、monitoring 后已恢复，最后更新为「All impacted services have now fully recovered」。5 另一个更早的 FedRAMP workspaces 和 API orgs 性能降级事件仍未关闭，状态页仍显示 investigating。6

状态项	当前可见状态	影响判断
ChatGPT 文件上传 / 下载错误升高	状态页显示已恢复。5	适合记录，不需要读者额外操作。
FedRAMP workspaces 和 API orgs 性能降级	状态页仍为 investigating。6	政府合规或受控环境用户仍应继续跟踪。

今天的信号可以压成一句话：OpenAI 没有用一个新模型占据版面，但它在把 GPT‑5 放进科研案例、把评估标准放进基金会、把 Codex 放进企业产研流程。这些线索比发布会标题小，却更接近产品和治理真正落地的地方。

GPT‑5 Pro 进入免疫学假设筛选

Appia Foundation 把「可信评估」往工程化推了一步

Omio 案例：OpenAI 继续把 Codex 放进企业生产率叙事

DevDay 开放申请，状态页新增一次已恢复故障

Fuentes de referencia