Claude Science:Anthropic 把实验室搬进 Claude1×0:006:200:08开场0:34产品核心1:45计算与生态2:57案例与边界4:15为什么强调审计5:33结尾0:08主播Anthropic 这次发布的 Claude Science,表面上是一个给科学家用的 Claude 应用。但更准确地说,它想把文献、代码、图表、计算资源和审稿式检查,放进同一个工作现场。今天这期我们看三个问题:它到底解决什么痛点,为什么要强调可审计和复现,以及它在 AI 科学家赛道里处在什么位置。0:34主播先看官方原文。Anthropic 在六月三十日宣布 Claude Science beta,面向 Claude Pro、Max、Team 和 Enterprise 用户。它的定位不是普通聊天窗口,而是科学工作台:研究者可以分析文献、跑多步研究任务、生成图表和手稿,并把生成过程留下可追溯记录。官方特别强调,每个输出都带有代码、运行环境、自然语言说明和消息历史,目的是让几个月之后仍能验证结果是怎么来的。1:11主播这个说法很关键。科研里最麻烦的地方,经常不是某一个模型会不会回答,而是研究者要在 PubMed、Jupyter、R、集群终端、结构查看器和各种数据库之间来回切换。Anthropic 说,Claude Science 会预置六十多个面向基因组学、单细胞、蛋白质组学、结构生物学和化学信息学的技能与连接器,还会有 reviewer agent 检查引用、计算和图表是否能对上底层代码。1:45主播再看计算层。Anthropic 原文说,Claude Science 可以运行在研究者自己的 Mac、Linux 机器,或者通过 SSH 和高性能计算登录节点工作;遇到更重的任务,也能连接 Modal 这样的按需计算资源。Modal 的配套文章把这个场景说得更具体:例如虚拟筛选、序列注释、蛋白结构预测这类任务,可以把大量并行工作分散到许多容器里跑,而研究者仍然停留在 Claude 对话里。2:21主播这解释了为什么 Claude Science 不是单靠大模型能力就能成立。生命科学工作流需要专门模型、数据库、依赖环境和可扩展计算。NVIDIA 在 BioNeMo Agent Toolkit 的公告里也提到,Anthropic 和 OpenAI 都在集成这套生命科学工具,让 agent 能调用蛋白结构预测、分子对接、基因组分析和药物发现相关组件。换句话说,前沿模型在这里更像调度大脑,真正落地还要接上科学工具箱和计算平台。2:57主播Anthropic 给了三个早期案例。Manifold Bio 用 Claude Science 按组织和靶点评估候选,Allen Institute 的 Jérôme Lecoq 用它搭建多代理的综述写作模板,UCSF 的 Stephen Francis 团队把它用于胶质瘤分子流行病学分析,并表示部分分析时间大约降到原来的十分之一。这里要保持一点距离:这些都是发布方文章里的案例,不等于独立大规模评测,但它们说明 Anthropic 想证明的不是「会写摘要」,而是「能贯穿一段科研流程」。3:36主播放到行业里看,Google Research 去年介绍过 AI co-scientist,也是一套多代理系统,目标是生成假设、研究计划和实验方案,并通过不同 agent 做生成、反思、排序和元评审。FutureHouse 在去年发布平台时,也把 Crow、Falcon、Owl、Phoenix 分成文献问答、深度综述、是否有人做过某事、化学实验规划等不同科学 agent。Claude Science 的差异在于,它更强调把这些能力放到研究者已有的本地环境、集群、数据库和图表生成链路里。4:15主播为什么 Anthropic 一直强调 auditable artifacts,也就是可审计产物?因为科学研究最怕的是看起来效率提高了,但理解和检验能力没有同步提高。PubMed 收录的 Nature 文章「Artificial intelligence and illusions of understanding in scientific research」提醒过,AI 工具会让研究者觉得自己理解了更多,但也可能制造理解错觉,甚至让某些方法、问题和观点形成科学单一化。简单说,产出更多不等于理解更深。4:52主播所以 Claude Science 真正值得看的,不是它能不能把一张图做得更漂亮,而是它能不能把图背后的输入、代码、环境、判断和修改历史留下来。一个科研 agent 如果只给结论,风险很高;如果能让研究者追溯它调用了哪些数据、怎样运行代码、哪里由 reviewer agent 发现问题,就更接近科学工作需要的「可检查」。但这也意味着,最终责任不会从研究者身上消失。Anthropic 的案例里,UCSF 团队也强调他们独立验证了结果。5:33主播本期的结论是:Claude Science 不是 Anthropic 又做了一个垂直版 Claude,而是它把代理能力推进了一个更难的场景。科研不是问答题,它是文献、数据、代码、计算、图表和同行检验组成的流程。Claude Science 的野心,是让 Claude 进入这个流程,而不是停在流程外给建议。真正要观察的,是它能否长期守住复现、审计和人类验证这三件事。如果做不到,它只是一个更会工作的助手;如果做得到,它就可能改变科研软件的入口。