
July 1, 2026 · 2:38 PM
LifeSciBench:OpenAI 把科研评测从答题拉回真实生命科学
OpenAI 发布 LifeSciBench,用 750 个专家撰写任务评估模型能否处理真实生命科学研究中的证据、附件、实验设计和转化判断。本文拆解它的任务设计、关键结果、模型短板,以及科研团队该如何看待 AI 助手的边界。
OpenAI 这次把问题问得更硬:如果一个 AI 系统在生命科学里只会答对生物知识题,但不能读图、看表、处理不完整证据,也不能判断一个实验包哪里站不住脚,那它离「科研助手」还差很远。LifeSciBench 的价值就在这里。它不把模型当考试学生,而是把模型放进更接近药物研发和生命科学研究的工作情境里,看它能不能给出可被专家使用的判断。OpenAI 于 2026 年 6 月 17 日发布这项基准,并配套公开论文预印本。1
它测的不是「会不会生物」,而是「能不能接住科研任务」
许多生命科学评测仍然偏向干净的问答:题目边界清楚,答案可以被压成一个选项、一串事实或一个计算结果。真实研究没这么整齐。研究人员经常要在证据不完整、结果互相冲突、实验约束很多的情况下做决定:这组 assay 是否可信,某个 biomarker 能不能支持临床推进,下一步该补什么实验,风险该怎么写进汇报。
LifeSciBench 因此把任务设计成「科学家会交给一位懂行合作者的问题」。每个任务包含科学问题、必要背景或附件,以及自由文本回答;评分也不是只看最终答案,而是用专家写的细粒度 rubric 判断模型是否给出了正确论点、合理证据、关键限制和适合专家阅读的格式。2
这会明显抬高评测难度。论文说,LifeSciBench 有 750 个专家撰写任务,覆盖 7 类科研工作流和 7 个生命科学领域;其中 79% 的任务需要多步推理或决策,平均每题约 4 个步骤。2 换句话说,它不满足于问模型「这是什么」,而是要看模型能不能把证据、假设、限制和下一步动作串起来。
最值得看的设计:附件和 rubric
LifeSciBench 有 1,062 个任务附件,形式包括图像、PDF、表格、序列文件、结构或化学文件和网页引用;53% 的任务要求模型至少解释或综合一个附件。2 这点很关键。生命科学研究里的错误常常不在「不知道概念」,而在「看错图」「漏掉表格里的限制」「把一个局部发现说成可推广结论」。
OpenAI 给出的例子是一个 AAV9 微型肌营养不良蛋白基因疗法包:模型要逐项质疑 Western blot 定量、免疫荧光抗体选择、外部自然史对照、NSAA 统计、AAV 持久性和安全性。这个任务不像普通选择题,它要求模型像一个会被 FDA 或审稿人追问的人那样,指出证据链哪里不够、还需要什么补充数据。1
评分方式也更接近专家验收。LifeSciBench 的专家 rubric 一共有 19,020 条评分标准,平均每题 25 条;这些标准覆盖科学主张、计算、决策、论证和格式要求。2 这让模型可以获得部分分,也会暴露一种很常见的失败:大方向说得像样,但漏了一个足以改变结论的约束。
数据集可信度怎么建立
这类基准最怕两件事:题目看起来专业,实际不代表真实工作;或者 rubric 写得很满,但专家并不认可它能评分。OpenAI 的做法是把专家参与放得很重。任务由 173 名生命科学专家创建,这些人具备博士级训练,并有生物技术或制药行业经验;已接受任务平均经过 6 轮自助自动审查,并至少完成 2 轮专家审查。2
后续独立验证又找了 453 名不参与写题的专家评审。OpenAI 报告称,97% 的评审拥有博士或同等学位,平均有 12 年领域经验和 14 篇同行评审论文;在「真实世界相关性」「科学推理与领域技能匹配」「科学 grounding」「总体有用性」四个维度上,总体同意率都超过 96%。2
这不能自动证明 LifeSciBench 就覆盖了所有生命科学场景,但至少说明它不是随手拼出来的题库。对读者来说,更应该把它看作一个偏研发工作流的压力测试,而不是完整的「AI 科学家」排行榜。
结果:最强模型也只通过三分之一多一点
论文评测了 GPT-5.4、GPT-5.5、GPT-Rosalind、Gemini 3.1 Pro 和 Grok 4.3。GPT-Rosalind 排名最高,问题加权平均 normalized score 为 0.576,任务通过率为 36.1%;GPT-5.5 为 0.519 / 25.7%,Gemini 3.1 Pro 为 0.515 / 23.6%,GPT-5.4 为 0.479 / 20.7%,Grok 4.3 为 0.399 / 13.0%。2
这组数字的重点不是谁领先几个百分点,而是绝对通过率仍然低。论文还统计了每道题由任一模型拿到的最高通过率:171 道题没有任何模型通过,占 22.8%;422 道题的最佳模型通过率低于 50%;261 道题低于 20%。2 这说明 LifeSciBench 目前还没有被前沿模型打穿,尤其适合继续观察下一代科研 Agent 的进步。
模型相对擅长的是结构化解释、科学沟通和转化判断。GPT-Rosalind 在 Translation 工作流上的 mean score 为 0.712,在 Scientific Communication 上为 0.718;这些任务更偏向把证据组织成专家能读懂的判断。2 这和很多研究人员的实际体验接近:模型适合先帮你整理证据、列出风险、写第一版批判性说明,但不适合被直接当成最后拍板的人。
短板也很清楚:附件、精确输出和约束执行
LifeSciBench 给出的短板比榜单更有用。GPT-Rosalind 在纯文本任务上的通过率是 44.5%,但在需要附件的任务上降到 28.6%;GPT-5.5 也从 29.5% 降到 22.2%。2 这说明模型面对复杂图表、大文件或实验附件时,问题不只是「推理不够强」,还包括能不能准确抽取证据,并把证据接到最终决策里。
另一类难点是精确构造。论文提到,序列、结构或 construct 级输出仍然很难;GPT-Rosalind 在 sequence / structure 相关 criteria 上的成功率为 46.9%,Grok 为 18.0%,而 GPT-Rosalind 相比 GPT-5.5 在 generate / construct 项上的提升几乎为零,仅 +0.001。2 对生命科学工作来说,这不是小问题。一个 CRISPR donor、siRNA 设计或化学结构格式只要差一点,就可能不能被下游流程使用。
还有一种更隐蔽的失败:答案有用,但不够完整。论文说,GPT-Rosalind 有 109 道题的通过率低于 20%,但仍拿到至少 50% 的 rubric 分。2 这类结果很像真实使用里的尴尬场景:模型给了你很多对的片段,却漏掉了关键约束。没有专家复核,用户很容易被一份「看起来专业」的回答带偏。
对科研团队的实际含义
如果把 LifeSciBench 当成采购或部署参考,它给出的信号比较克制:AI 已经可以在证据整理、方案批判、科学沟通和转化风险初筛上帮忙,但需要把它放在专家流程里。它更像一个能加速第一轮分析的合作者,而不是能独立承担生命科学决策的系统。
部署时最该防的不是模型完全不会,而是模型「做对一半」。在生命科学里,做对一半常常不够用。一个回答漏掉 assay 特异性、样本选择偏差、外部对照不可比,或者没有把某个序列格式约束落实到最终输出,都可能让后续实验、申报或临床判断走错方向。
LifeSciBench 自己也承认边界:它评估的是自包含、单轮任务,不等同于真实实验室里多轮协作、补充实验、跨团队审查和长期项目推进。2 所以更稳妥的读法是:它证明前沿模型正在接近「可参与部分科研工作」的状态,同时也明确划出红线,涉及附件证据、精确构造和最终研究决策时,专家仍然不能离场。
References
More from this channel
- Anthropic Economic Index:AI 正在贴着工作节奏生长
- Claude Sonnet 5:Anthropic 把 Agent 能力下放到 Sonnet 价位
- OpenAI 的 Codex 研究:Agent 改变的不是聊天,而是派活
- OpenAI 公益转型计划:AGI 的问题从能力转向分配
- Anthropic 40 万次 Claude Code 会话:会提需求比会写代码更值钱
- ChatGPT Memory Dreaming:OpenAI 要解决记忆变旧这件事
- OpenAI 的 GeneBench-Pro:科研 Agent 不能只会跑流程了
- Google 冻结 Gemini Nano 也能加速:MTP 头省下的是内存和等待
Related content
- Sign in to comment.
