LifeSciBench：OpenAI 把科研评测从答题拉回真实生命科学 (2026)

OpenAI 这次把问题问得更硬：如果一个 AI 系统在生命科学里只会答对生物知识题，但不能读图、看表、处理不完整证据，也不能判断一个实验包哪里站不住脚，那它离「科研助手」还差很远。LifeSciBench 的价值就在这里。它不把模型当考试学生，而是把模型放进更接近药物研发和生命科学研究的工作情境里，看它能不能给出可被专家使用的判断。OpenAI 于 2026 年 6 月 17 日发布这项基准，并配套公开论文预印本。1

它测的不是「会不会生物」，而是「能不能接住科研任务」

许多生命科学评测仍然偏向干净的问答：题目边界清楚，答案可以被压成一个选项、一串事实或一个计算结果。真实研究没这么整齐。研究人员经常要在证据不完整、结果互相冲突、实验约束很多的情况下做决定：这组 assay 是否可信，某个 biomarker 能不能支持临床推进，下一步该补什么实验，风险该怎么写进汇报。

LifeSciBench 因此把任务设计成「科学家会交给一位懂行合作者的问题」。每个任务包含科学问题、必要背景或附件，以及自由文本回答；评分也不是只看最终答案，而是用专家写的细粒度 rubric 判断模型是否给出了正确论点、合理证据、关键限制和适合专家阅读的格式。2

这会明显抬高评测难度。论文说，LifeSciBench 有 750 个专家撰写任务，覆盖 7 类科研工作流和 7 个生命科学领域；其中 79% 的任务需要多步推理或决策，平均每题约 4 个步骤。2 换句话说，它不满足于问模型「这是什么」，而是要看模型能不能把证据、假设、限制和下一步动作串起来。

最值得看的设计：附件和 rubric

LifeSciBench 有 1,062 个任务附件，形式包括图像、PDF、表格、序列文件、结构或化学文件和网页引用；53% 的任务要求模型至少解释或综合一个附件。2 这点很关键。生命科学研究里的错误常常不在「不知道概念」，而在「看错图」「漏掉表格里的限制」「把一个局部发现说成可推广结论」。

OpenAI 给出的例子是一个 AAV9 微型肌营养不良蛋白基因疗法包：模型要逐项质疑 Western blot 定量、免疫荧光抗体选择、外部自然史对照、NSAA 统计、AAV 持久性和安全性。这个任务不像普通选择题，它要求模型像一个会被 FDA 或审稿人追问的人那样，指出证据链哪里不够、还需要什么补充数据。1

评分方式也更接近专家验收。LifeSciBench 的专家 rubric 一共有 19,020 条评分标准，平均每题 25 条；这些标准覆盖科学主张、计算、决策、论证和格式要求。2 这让模型可以获得部分分，也会暴露一种很常见的失败：大方向说得像样，但漏了一个足以改变结论的约束。

数据集可信度怎么建立

这类基准最怕两件事：题目看起来专业，实际不代表真实工作；或者 rubric 写得很满，但专家并不认可它能评分。OpenAI 的做法是把专家参与放得很重。任务由 173 名生命科学专家创建，这些人具备博士级训练，并有生物技术或制药行业经验；已接受任务平均经过 6 轮自助自动审查，并至少完成 2 轮专家审查。2

后续独立验证又找了 453 名不参与写题的专家评审。OpenAI 报告称，97% 的评审拥有博士或同等学位，平均有 12 年领域经验和 14 篇同行评审论文；在「真实世界相关性」「科学推理与领域技能匹配」「科学 grounding」「总体有用性」四个维度上，总体同意率都超过 96%。2

这不能自动证明 LifeSciBench 就覆盖了所有生命科学场景，但至少说明它不是随手拼出来的题库。对读者来说，更应该把它看作一个偏研发工作流的压力测试，而不是完整的「AI 科学家」排行榜。

结果：最强模型也只通过三分之一多一点

论文评测了 GPT-5.4、GPT-5.5、GPT-Rosalind、Gemini 3.1 Pro 和 Grok 4.3。GPT-Rosalind 排名最高，问题加权平均 normalized score 为 0.576，任务通过率为 36.1%；GPT-5.5 为 0.519 / 25.7%，Gemini 3.1 Pro 为 0.515 / 23.6%，GPT-5.4 为 0.479 / 20.7%，Grok 4.3 为 0.399 / 13.0%。2

这组数字的重点不是谁领先几个百分点，而是绝对通过率仍然低。论文还统计了每道题由任一模型拿到的最高通过率：171 道题没有任何模型通过，占 22.8%；422 道题的最佳模型通过率低于 50%；261 道题低于 20%。2 这说明 LifeSciBench 目前还没有被前沿模型打穿，尤其适合继续观察下一代科研 Agent 的进步。

模型相对擅长的是结构化解释、科学沟通和转化判断。GPT-Rosalind 在 Translation 工作流上的 mean score 为 0.712，在 Scientific Communication 上为 0.718；这些任务更偏向把证据组织成专家能读懂的判断。2 这和很多研究人员的实际体验接近：模型适合先帮你整理证据、列出风险、写第一版批判性说明，但不适合被直接当成最后拍板的人。

短板也很清楚：附件、精确输出和约束执行

LifeSciBench 给出的短板比榜单更有用。GPT-Rosalind 在纯文本任务上的通过率是 44.5%，但在需要附件的任务上降到 28.6%；GPT-5.5 也从 29.5% 降到 22.2%。2 这说明模型面对复杂图表、大文件或实验附件时，问题不只是「推理不够强」，还包括能不能准确抽取证据，并把证据接到最终决策里。

另一类难点是精确构造。论文提到，序列、结构或 construct 级输出仍然很难；GPT-Rosalind 在 sequence / structure 相关 criteria 上的成功率为 46.9%，Grok 为 18.0%，而 GPT-Rosalind 相比 GPT-5.5 在 generate / construct 项上的提升几乎为零，仅 +0.001。2 对生命科学工作来说，这不是小问题。一个 CRISPR donor、siRNA 设计或化学结构格式只要差一点，就可能不能被下游流程使用。

还有一种更隐蔽的失败：答案有用，但不够完整。论文说，GPT-Rosalind 有 109 道题的通过率低于 20%，但仍拿到至少 50% 的 rubric 分。2 这类结果很像真实使用里的尴尬场景：模型给了你很多对的片段，却漏掉了关键约束。没有专家复核，用户很容易被一份「看起来专业」的回答带偏。

对科研团队的实际含义

如果把 LifeSciBench 当成采购或部署参考，它给出的信号比较克制：AI 已经可以在证据整理、方案批判、科学沟通和转化风险初筛上帮忙，但需要把它放在专家流程里。它更像一个能加速第一轮分析的合作者，而不是能独立承担生命科学决策的系统。

部署时最该防的不是模型完全不会，而是模型「做对一半」。在生命科学里，做对一半常常不够用。一个回答漏掉 assay 特异性、样本选择偏差、外部对照不可比，或者没有把某个序列格式约束落实到最终输出，都可能让后续实验、申报或临床判断走错方向。

LifeSciBench 自己也承认边界：它评估的是自包含、单轮任务，不等同于真实实验室里多轮协作、补充实验、跨团队审查和长期项目推进。2 所以更稳妥的读法是：它证明前沿模型正在接近「可参与部分科研工作」的状态，同时也明确划出红线，涉及附件证据、精确构造和最终研究决策时，专家仍然不能离场。

LifeSciBench：OpenAI 把科研评测从答题拉回真实生命科学

它测的不是「会不会生物」，而是「能不能接住科研任务」

最值得看的设计：附件和 rubric

数据集可信度怎么建立

结果：最强模型也只通过三分之一多一点

短板也很清楚：附件、精确输出和约束执行

对科研团队的实际含义

References

More from this channel

Related content