
2026. 7. 1. · 09:14
OpenAI 日报:GeneBench-Pro、全球采用数据与 Rockset 调试复盘
本期梳理 6 月 29 日至 7 月 1 日早间的 OpenAI 关键动态:GeneBench-Pro 将模型评估推进到科研判断层,Signals 数据显示 ChatGPT 使用继续全球化,工程团队复盘 Rockset 崩溃并修复 libunwind 老 bug,同时跟进欧盟就业研究、Codex 预告与状态页恢复。
6 月 30 日,OpenAI 同时把三类信号摆到台面上:ChatGPT 的全球使用正在继续扩散,前沿模型开始被放进更接近真实科研判断的基准里,支撑 ChatGPT 记忆和数据检索的底层基础设施也公开了一次罕见的故障复盘。对产品和技术团队来说,这一期的重点不是单个新按钮,而是 OpenAI 正在把「使用规模」「模型评估」「系统可靠性」三条线一起往前推。
速览
| 板块 | 最新动态 | 读者该关注什么 |
|---|---|---|
| 用户采用 | OpenAI Signals 显示,个人 ChatGPT 用户注册 6 个月后,日均消息量比注册初期高 50%,尝试过的能力数量翻倍;非英语用户已超过活跃用户的一半。1 | ChatGPT 的增长叙事正在从「有多少人试用」转向「同一个用户会不会越用越深」。 |
| 科研评估 | OpenAI 发布 GeneBench-Pro,用 129 个计算生物学问题测试 AI agent 处理脏数据、改分析路径、做结论判断的能力;GPT-5.6 Sol 最高推理档通过率为 28.7%,开启 Pro 模式为 31.5%。2 | 这类基准更像「真实研究助理考试」,比单纯问答或代码题更能暴露 agent 的短板。 |
| 工程可靠性 | OpenAI 复盘 Rockset 相关崩溃,最终拆出两个原因:一个 Azure 物理主机的静默硬件错误,以及 GNU libunwind 中存在 18 年的竞态条件;OpenAI 已切换 unwinder,并向上游提交复现与修复。3 | 对依赖 C++、信号处理和大规模在线系统的团队,这是一次很有参考价值的排障案例。 |
| 劳动力研究 | OpenAI 将 AI Jobs Transition Framework 扩展到欧盟,估算欧盟约 12% 就业在可能随 AI 增长的职业,14% 在较高近期开自动化潜力职业,27% 更可能被重组,47% 短期变化较小。4 | OpenAI 的政策研究继续从美国扩展到欧洲,就业影响讨论会更依赖本地职业结构。 |
| 服务状态 | Codex 用量限制异常消耗事件已在北京时间 6 月 30 日 01:06 恢复;状态页显示 7 月截至本期发稿暂无新增事故。5 | 使用 Codex 的团队可回看用量限制是否被异常扣减;今天没有新的大面积服务故障。 |
ChatGPT 采用数据:增长不只看新增用户
OpenAI 新发布的 Signals 数据把视角放到个人版 ChatGPT,包括 Free、Go、Plus 和 Pro。它的一个关键信号是:用户不是注册后很快用腻,而是在继续加深使用。OpenAI 对 2025 年 10 月 15 日至 2026 年 5 月 1 日注册的一组用户做 0.1% 抽样,并统计到 2026 年 5 月 31 日;注册 6 个月后,这些用户每天发送的消息量比注册后最初 28 天高 50%,累计尝试过的能力数量也变成约 2 倍。1
这组数据的价值在于,它把「ChatGPT 有没有成为习惯」拆成了两个更可观察的指标:一个是使用深度,另一个是任务广度。前者看同一个人是不是发更多消息,后者看他是不是开始让 ChatGPT 处理更多类型的事情。对产品团队来说,这比单看月活更接近留存质量。
地域和语言结构也在变化。OpenAI 称,自 2023 年 7 月以来,各大洲的 ChatGPT 周活用户都增长,非洲和亚洲的相对增长最快;按人类发展指数分组,较低 HDI 国家同样出现更快的相对增长。非英语用户现在已占活跃用户的一半以上,主要非英语语言包括西班牙语、葡萄牙语和阿拉伯语。1
这里需要注意口径:OpenAI 使用的是聚合数据,并排除了未满 18 岁用户、禁用用户以及部分无法分类样本。它能说明方向,但不能直接还原每个国家的真实渗透率。
GeneBench-Pro:OpenAI 想测的不是会不会做题,而是会不会判断
GeneBench-Pro 是本期最重要的研究发布。OpenAI 把它定义为研究级计算生物学基准,覆盖基因组学、定量生物学和转化医学中的复杂任务。每道题不是给模型一段干净文本再问答案,而是给一个真实感更强的数据集、实验背景和目标估计量,要求 agent 自己探索数据、选择分析方法、迭代实验,并交出最后判断。2
这跟常见 benchmark 的差别很大。很多模型能在固定流程题上表现不错,但真实科研往往卡在更麻烦的地方:数据能不能支撑这个问题,早期诊断结果是否要求换模型,什么时候该承认原方案不成立。OpenAI 在文中把这种能力称为「research taste」,更接近有经验研究者的判断链。
GeneBench-Pro 目前有 129 个问题,分布在 10 个领域和 21 个子领域。OpenAI 还把 82 道题交给外部领域专家评审,并开源了 10 个代表性问题,另计划把 50 道题提供给 Artificial Analysis 做第三方评测。2 这些公开 case study 包括结构变异驱动的肿瘤治疗收益风险判断、CRISPR 靶点验证、蛋白药物靶点优先级、携带者筛查剩余风险、单细胞基因组学等任务。6
结果并不「满分」。OpenAI 称 GPT-5.6 Sol 在最高推理档通过率为 28.7%,开启 Pro 模式为 31.5%;相比早期构建 GeneBench 时 GPT-5 低于 5% 的成绩已经大幅提高,但仍不到三分之一。OpenAI 还称,一个典型 GeneBench-Pro 问题经专家估算需要人类专家约 20-40 小时完成,而当前 AI agent 的推理成本只有数美元级别。2
我的判断是:这类评估会越来越影响模型发布叙事。以前模型发布常用编程、数学、知识问答来证明「更强」。GeneBench-Pro 试图把问题推进到「能不能在不干净的数据里做出可交付判断」。这对生物医药、科研自动化、合规分析和企业数据分析都有外溢意义。
工程复盘:一个坏主机,加一个 18 年老 bug
OpenAI 的工程文章讲的是 Rockset 相关崩溃。Rockset 是 OpenAI 在 2024 年收购的数据系统,OpenAI 在文中称它是 ChatGPT 数据基础设施的一部分,用于很多内部场景,包括同步连接器和对工作区知识库的搜索。3
最初,团队以为自己面对的是一个诡异的 C++ 栈损坏问题:函数看似正常返回,却跳到了无效地址;有时返回地址变成 NULL,有时栈指针像是被错移了 8 字节。单看几个 core dump,所有假设都互相打架。
转折点是他们换了排障方法。团队让 ChatGPT 写脚本,自动下载每个 core 文件前缀、提取寄存器、过滤已知误报,并把过去一年生产 Rockset core dump 并行标注为 return-to-null、misaligned-stack 或其他类型。这个「全量病例表」一出来,两个不同崩溃群体才分开。3
第一个问题是单个 Azure 物理主机的静默硬件错误。OpenAI 把对应主机加入拒用后,misaligned-stack 崩溃消失。第二个问题更少见:GNU libunwind 的
_Ux86_64_setcontext 在恢复栈指针后,仍从已经不再属于活动栈的 ucontext_t 里读取目标指令指针;如果信号正好在这个极窄窗口到达,内核构建 signal frame 时可能覆盖该结构,最后让目标地址变成 NULL。3OpenAI 的即时缓解是从 GNU libunwind 切换到 libgcc unwinder,并向 GNU libunwind 上游提交了独立复现和修复。这个案例最值得带走的不是某条汇编细节,而是排障方式:先把「看起来像一个 bug」的东西按全量数据拆群,再分别解释。没有这一步,坏硬件会把 libunwind 的线索冲掉,libunwind 又会让硬件问题看起来不像硬件问题。
欧盟就业框架:政策线继续加密
6 月 29 日,OpenAI 把 AI Jobs Transition Framework 扩展到欧盟。这个框架使用 ESCO 职业分类和 Eurostat 就业数据,估算 AI 能力如何转化为不同类型的近期职业变化。OpenAI 明确说,这不是就业预测,而是规划用的地图。4
在欧盟口径下,OpenAI 给出四类结果:约 12% 就业处在可能随 AI 增长的职业,约 14% 属于较高近期开自动化潜力职业,约 27% 更可能出现工作流和技能重组,剩余 47% 短期变化较小。国家之间差异也很明显:卢森堡、瑞典、荷兰在可能随 AI 增长的职业中占比更高;德国、希腊、意大利在较高自动化潜力职业中占比更高。4
这条线对普通开发者不如模型发布直接,但对企业客户和政策观察者很重要。OpenAI 正在把「AI 会改变哪些工作」从泛泛讨论变成一个按地区、职业分类和制度环境拆开的研究产品。后续如果它继续和政府、教育机构、企业培训体系对接,欧洲会成为 OpenAI 政策叙事的重要场域。
产品和状态:Codex 有一个待关注日期
ChatGPT 帮助中心的版本说明在本期抓取时显示「5 hours ago」更新,但最新按日期列出的条目仍停在 6 月 26 日,包括美国 Plus 用户和 Android 端扩展个人理财体验、全计划推出新的听写语音转文本模型、ChatGPT 中退役 GPT-4.5。7 这些内容已不算今天的新功能,今天只作为状态核对。
Codex 线有两个小信号。第一,OpenAI Developers 在 6 月 30 日 01:00 发布预告,称用户常用的 Codex shortcuts 会在 7 月 15 日升级,但没有给出更多产品细节。8 第二,状态页显示「Codex Usage Limits Depleting Faster Than Expected」事件已恢复。OpenAI 在监控更新中说,部分报告与防滥用和反欺诈系统错误限流某些账号有关,影响看起来有限,未观察到更广泛的 Codex 使用降级。5
今天没有新的公开模型发布,也没有新的 API changelog 证据进入正文。更值得盯的是两件事:GeneBench-Pro 是否会被第三方评测平台快速采用,以及 7 月 15 日 Codex shortcuts 升级会不会把 Codex 从「会写代码」进一步推向「能沉淀个人或团队操作习惯」。

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.