OpenAI 日报：GeneBench-Pro、全球采用数据与 Rockset 调试复盘 (2026)

6 月 30 日，OpenAI 同时把三类信号摆到台面上：ChatGPT 的全球使用正在继续扩散，前沿模型开始被放进更接近真实科研判断的基准里，支撑 ChatGPT 记忆和数据检索的底层基础设施也公开了一次罕见的故障复盘。对产品和技术团队来说，这一期的重点不是单个新按钮，而是 OpenAI 正在把「使用规模」「模型评估」「系统可靠性」三条线一起往前推。

速览

板块	最新动态	读者该关注什么
用户采用	OpenAI Signals 显示，个人 ChatGPT 用户注册 6 个月后，日均消息量比注册初期高 50%，尝试过的能力数量翻倍；非英语用户已超过活跃用户的一半。1	ChatGPT 的增长叙事正在从「有多少人试用」转向「同一个用户会不会越用越深」。
科研评估	OpenAI 发布 GeneBench-Pro，用 129 个计算生物学问题测试 AI agent 处理脏数据、改分析路径、做结论判断的能力；GPT-5.6 Sol 最高推理档通过率为 28.7%，开启 Pro 模式为 31.5%。2	这类基准更像「真实研究助理考试」，比单纯问答或代码题更能暴露 agent 的短板。
工程可靠性	OpenAI 复盘 Rockset 相关崩溃，最终拆出两个原因：一个 Azure 物理主机的静默硬件错误，以及 GNU libunwind 中存在 18 年的竞态条件；OpenAI 已切换 unwinder，并向上游提交复现与修复。3	对依赖 C++、信号处理和大规模在线系统的团队，这是一次很有参考价值的排障案例。
劳动力研究	OpenAI 将 AI Jobs Transition Framework 扩展到欧盟，估算欧盟约 12% 就业在可能随 AI 增长的职业，14% 在较高近期开自动化潜力职业，27% 更可能被重组，47% 短期变化较小。4	OpenAI 的政策研究继续从美国扩展到欧洲，就业影响讨论会更依赖本地职业结构。
服务状态	Codex 用量限制异常消耗事件已在北京时间 6 月 30 日 01:06 恢复；状态页显示 7 月截至本期发稿暂无新增事故。5	使用 Codex 的团队可回看用量限制是否被异常扣减；今天没有新的大面积服务故障。

ChatGPT 采用数据：增长不只看新增用户

OpenAI 新发布的 Signals 数据把视角放到个人版 ChatGPT，包括 Free、Go、Plus 和 Pro。它的一个关键信号是：用户不是注册后很快用腻，而是在继续加深使用。OpenAI 对 2025 年 10 月 15 日至 2026 年 5 月 1 日注册的一组用户做 0.1% 抽样，并统计到 2026 年 5 月 31 日；注册 6 个月后，这些用户每天发送的消息量比注册后最初 28 天高 50%，累计尝试过的能力数量也变成约 2 倍。1

这组数据的价值在于，它把「ChatGPT 有没有成为习惯」拆成了两个更可观察的指标：一个是使用深度，另一个是任务广度。前者看同一个人是不是发更多消息，后者看他是不是开始让 ChatGPT 处理更多类型的事情。对产品团队来说，这比单看月活更接近留存质量。

地域和语言结构也在变化。OpenAI 称，自 2023 年 7 月以来，各大洲的 ChatGPT 周活用户都增长，非洲和亚洲的相对增长最快；按人类发展指数分组，较低 HDI 国家同样出现更快的相对增长。非英语用户现在已占活跃用户的一半以上，主要非英语语言包括西班牙语、葡萄牙语和阿拉伯语。1

这里需要注意口径：OpenAI 使用的是聚合数据，并排除了未满 18 岁用户、禁用用户以及部分无法分类样本。它能说明方向，但不能直接还原每个国家的真实渗透率。

GeneBench-Pro：OpenAI 想测的不是会不会做题，而是会不会判断

GeneBench-Pro 是本期最重要的研究发布。OpenAI 把它定义为研究级计算生物学基准，覆盖基因组学、定量生物学和转化医学中的复杂任务。每道题不是给模型一段干净文本再问答案，而是给一个真实感更强的数据集、实验背景和目标估计量，要求 agent 自己探索数据、选择分析方法、迭代实验，并交出最后判断。2

这跟常见 benchmark 的差别很大。很多模型能在固定流程题上表现不错，但真实科研往往卡在更麻烦的地方：数据能不能支撑这个问题，早期诊断结果是否要求换模型，什么时候该承认原方案不成立。OpenAI 在文中把这种能力称为「research taste」，更接近有经验研究者的判断链。

GeneBench-Pro 目前有 129 个问题，分布在 10 个领域和 21 个子领域。OpenAI 还把 82 道题交给外部领域专家评审，并开源了 10 个代表性问题，另计划把 50 道题提供给 Artificial Analysis 做第三方评测。2 这些公开 case study 包括结构变异驱动的肿瘤治疗收益风险判断、CRISPR 靶点验证、蛋白药物靶点优先级、携带者筛查剩余风险、单细胞基因组学等任务。6

结果并不「满分」。OpenAI 称 GPT-5.6 Sol 在最高推理档通过率为 28.7%，开启 Pro 模式为 31.5%；相比早期构建 GeneBench 时 GPT-5 低于 5% 的成绩已经大幅提高，但仍不到三分之一。OpenAI 还称，一个典型 GeneBench-Pro 问题经专家估算需要人类专家约 20-40 小时完成，而当前 AI agent 的推理成本只有数美元级别。2

我的判断是：这类评估会越来越影响模型发布叙事。以前模型发布常用编程、数学、知识问答来证明「更强」。GeneBench-Pro 试图把问题推进到「能不能在不干净的数据里做出可交付判断」。这对生物医药、科研自动化、合规分析和企业数据分析都有外溢意义。

工程复盘：一个坏主机，加一个 18 年老 bug

OpenAI 的工程文章讲的是 Rockset 相关崩溃。Rockset 是 OpenAI 在 2024 年收购的数据系统，OpenAI 在文中称它是 ChatGPT 数据基础设施的一部分，用于很多内部场景，包括同步连接器和对工作区知识库的搜索。3

最初，团队以为自己面对的是一个诡异的 C++ 栈损坏问题：函数看似正常返回，却跳到了无效地址；有时返回地址变成 NULL，有时栈指针像是被错移了 8 字节。单看几个 core dump，所有假设都互相打架。

转折点是他们换了排障方法。团队让 ChatGPT 写脚本，自动下载每个 core 文件前缀、提取寄存器、过滤已知误报，并把过去一年生产 Rockset core dump 并行标注为 return-to-null、misaligned-stack 或其他类型。这个「全量病例表」一出来，两个不同崩溃群体才分开。3

第一个问题是单个 Azure 物理主机的静默硬件错误。OpenAI 把对应主机加入拒用后，misaligned-stack 崩溃消失。第二个问题更少见：GNU libunwind 的 _Ux86_64_setcontext 在恢复栈指针后，仍从已经不再属于活动栈的 ucontext_t 里读取目标指令指针；如果信号正好在这个极窄窗口到达，内核构建 signal frame 时可能覆盖该结构，最后让目标地址变成 NULL。3

OpenAI 的即时缓解是从 GNU libunwind 切换到 libgcc unwinder，并向 GNU libunwind 上游提交了独立复现和修复。这个案例最值得带走的不是某条汇编细节，而是排障方式：先把「看起来像一个 bug」的东西按全量数据拆群，再分别解释。没有这一步，坏硬件会把 libunwind 的线索冲掉，libunwind 又会让硬件问题看起来不像硬件问题。

欧盟就业框架：政策线继续加密

6 月 29 日，OpenAI 把 AI Jobs Transition Framework 扩展到欧盟。这个框架使用 ESCO 职业分类和 Eurostat 就业数据，估算 AI 能力如何转化为不同类型的近期职业变化。OpenAI 明确说，这不是就业预测，而是规划用的地图。4

在欧盟口径下，OpenAI 给出四类结果：约 12% 就业处在可能随 AI 增长的职业，约 14% 属于较高近期开自动化潜力职业，约 27% 更可能出现工作流和技能重组，剩余 47% 短期变化较小。国家之间差异也很明显：卢森堡、瑞典、荷兰在可能随 AI 增长的职业中占比更高；德国、希腊、意大利在较高自动化潜力职业中占比更高。4

这条线对普通开发者不如模型发布直接，但对企业客户和政策观察者很重要。OpenAI 正在把「AI 会改变哪些工作」从泛泛讨论变成一个按地区、职业分类和制度环境拆开的研究产品。后续如果它继续和政府、教育机构、企业培训体系对接，欧洲会成为 OpenAI 政策叙事的重要场域。

产品和状态：Codex 有一个待关注日期

ChatGPT 帮助中心的版本说明在本期抓取时显示「5 hours ago」更新，但最新按日期列出的条目仍停在 6 月 26 日，包括美国 Plus 用户和 Android 端扩展个人理财体验、全计划推出新的听写语音转文本模型、ChatGPT 中退役 GPT-4.5。7 这些内容已不算今天的新功能，今天只作为状态核对。

Codex 线有两个小信号。第一，OpenAI Developers 在 6 月 30 日 01:00 发布预告，称用户常用的 Codex shortcuts 会在 7 月 15 日升级，但没有给出更多产品细节。8 第二，状态页显示「Codex Usage Limits Depleting Faster Than Expected」事件已恢复。OpenAI 在监控更新中说，部分报告与防滥用和反欺诈系统错误限流某些账号有关，影响看起来有限，未观察到更广泛的 Codex 使用降级。5

今天没有新的公开模型发布，也没有新的 API changelog 证据进入正文。更值得盯的是两件事：GeneBench-Pro 是否会被第三方评测平台快速采用，以及 7 月 15 日 Codex shortcuts 升级会不会把 Codex 从「会写代码」进一步推向「能沉淀个人或团队操作习惯」。

OpenAI 日报：GeneBench-Pro、全球采用数据与 Rockset 调试复盘

速览

ChatGPT 采用数据：增长不只看新增用户

GeneBench-Pro：OpenAI 想测的不是会不会做题，而是会不会判断

工程复盘：一个坏主机，加一个 18 年老 bug

欧盟就业框架：政策线继续加密

产品和状态：Codex 有一个待关注日期

참고 출처

관련 콘텐츠