科研 Agent 不能只会跑脚本:Claude Science 把审计塞进循环1×0:008:210:08开场1:19技术拆解3:49背景与对照5:33工程意义7:05落地建议0:08主持过去二十四小时内,我没有找到一个足够扎实、又和本频道最近几期明显错开的 Agent 工程主事件。所以今天把窗口扩大到近一周,讲六月三十日 Anthropic 发布的 Claude Science。它表面上是科研工作台,工程上更像一个实验:把 Agent 的工具、计算资源、审计轨迹和复核者,塞进同一条科研循环里。0:32主持先把事件说清楚。据 Anthropic 发布稿,Claude Science 现在以 beta 形式面向 Claude Pro、Max、Team 和 Enterprise 用户开放,运行在 macOS 和 Linux 上。它不是一个新模型,而是一个面向科研的应用环境:一个通用协调 Agent,加上六十多个面向生命科学的技能和连接器,还能调度用户自己创建的专门 Agent。0:55主持这件事值得放进 AI Loop Engineering 来看,是因为它没有停在「帮我写段代码」这一层。Anthropic 在发布稿里强调,每个输出都要带上生成它的代码、环境、自然语言说明和完整消息历史。Claude 产品页还写得更直白:图表、表格和 notebook 要能在几个月后被复现、编辑或辩护。1:19主持第一个关键点,是它把科研工作流变成可追溯 artifact。科研 Agent 最容易让人不安的地方,不是它会不会调用工具,而是它跑完之后,你不知道某张图、某个数、某条结论到底从哪里来的。Claude Science 的做法,是把图、代码、环境和对话绑在一起。你要求它改一张图的坐标轴,它不是凭空画一张新图,而是回到生成图的代码上改。1:46主持第二个关键点,是 reviewer agent。Anthropic 说,后台 reviewer 会检查引用、计算,以及图表是否匹配底层代码,发现错误后会标出并修正。产品页也写到,background reviewer 会标记无法追溯到证据的 claim。对工程团队来说,这句话的重点不是「又多了一个 Agent」,而是执行循环里多了一条独立的检查支路。2:12主持这和普通的自我反思提示词不一样。一个 Agent 一边产出、一边自己给自己鼓掌,风险很高。Claude Science 描述的模式更接近 actor-critic:一个 Agent 负责创建内容,另一个 reviewer Agent 负责查准确性和引用忠实度。Anthropic 在 Allen Institute 的案例里提到,Jérôme Lecoq 用它做了一个包含大约二十个 custom skills 的多 Agent 文献综述模板,sub-agent 读几千篇论文,抽取中心 claim 和关键定量发现,再存进 evidence state database。2:47主持第三个关键点,是计算资源进入循环,但不是无限授权。Anthropic 说 Claude Science 可以在本机、实验室 Linux 机器、HPC 登录节点,或者通过 Modal 账户运行计算任务;在触达新资源前会先起草计划并请求确认。Modal 的配套文章给了更具体的工程图景:需要 GPU 或大量 CPU 的步骤,会自动路由到 Modal sandboxes;例如虚拟筛选、序列注释、结构预测这类高并行任务,可以 fan out 到上百个容器。3:22主持这其实是 Agent 落地里非常实在的一关。很多 demo 里,Agent 能跑 Python,就好像已经有了执行能力;但生产环境里,执行能力意味着队列、GPU 类型、共享存储、依赖环境和权限边界。Modal 文章把这些拆成几个点:每一步按需拿 GPU,跨任务共享数据卷,用镜像固定依赖。Claude 负责写 Python 和编排,Modal 负责把计算跑起来。3:49主持为什么这个问题现在变得急?同一周 OpenAI 发布 GeneBench-Pro,给了一个很好的背景参照。OpenAI 说,这个 benchmark 有一百二十九个计算生物学问题,考的不是背知识,而是模型能不能在含糊数据里选择分析路径、修正假设,并判断结果是否能支持下游决策。OpenAI 报告里最强模型 GPT 五点六 Sol Pro 的通过率是百分之三十一点五,说明这类长链路判断还远没到可靠自动化。4:19主持GeneBench-Pro 里有一句判断很适合放到今天这期:模型常常能注意到局部诊断信号,却没有把这个信号传导到对应的分析决策。换成工程语言,就是 loop 断了。它看到了异常,却没有改 estimator;它发现数据不干净,却继续沿着原计划往下跑。Claude Science 要解决的,正是这种「注意到」到「采取行动」之间的断点。4:43主持NVIDIA 六月二十三日发布 BioNeMo Agent Toolkit,也在往同一个方向推。NVIDIA 说这个 toolkit 把生命科学库、模型和框架变成 Agent 可调用的工具,覆盖蛋白结构预测、分子 docking、基因组分析、蛋白设计和生物标志物发现。Anthropic 的 Claude Science 又明确写到,它会使用 BioNeMo Agent Toolkit 里的 skills,连接 Evo 二、Boltz 二、OpenFold 三等模型和库。5:12主持所以这里出现了一条比较清楚的行业线索:科研 Agent 不再只是大模型加聊天窗口。它正在变成一个会保留状态、会调工具、会调计算、会留下审计轨迹、还会被另一个 Agent 复核的系统。听起来没那么炫,但这恰恰是能进实验室和企业研发流程的前提。5:33主持对普通 Agent 工程团队,Claude Science 带来的启发有四个。第一,artifact 要成为一等对象。不要只保存最终答案,要保存产生答案的代码、输入、环境、参数和关键中间产物。尤其是图表、报告、自动生成的 PR 或数据分析结论,都应该能被回放。5:55主持第二,reviewer 不要只做最后一句「请检查」。它应该在循环里有明确位置,有自己的输入和输出。比如检查引用能不能追到原文,计算结果能不能复算,图表和底层数据是否一致,权限申请是否超过任务范围。最关键的是,reviewer 的发现要能改变下一步动作,而不是只生成一段漂亮的审稿意见。6:17主持第三,计算资源也是权限的一部分。Agent 能不能跑一个本地脚本,和能不能提交上百个 GPU job,是完全不同的风险等级。Anthropic 和 Modal 的组合给了一个参考形态:Agent 负责计划和代码,平台负责沙箱、队列、镜像、共享存储和资源边界,人类在高风险步骤前有确认点。6:41主持第四,领域工具要变成可组合能力,而不是藏在一次性脚本里。NVIDIA 把 BioNeMo 里的模型和库做成 Agent 可调用工具,Claude Science 允许把实验室已有 pipeline 保存成 reusable skill。这个方向很重要:真正能稳定复用的,不是一次 prompt 的灵感,而是一组被命名、被约束、被审计的能力。7:05主持如果你的团队正在做科研、数据分析、投研、法务或任何高风险 Agent,我建议先别急着追「全自动」。先问四个问题:第一,最终 artifact 能不能回到代码、数据和环境?第二,reviewer Agent 是否真的有权改变执行路径?第三,外部资源调用有没有审批和额度边界?第四,失败时能不能定位是模型判断错、工具调用错,还是数据本身不支持这个结论?7:35主持这四个问题都答不上来,Agent 越聪明,风险越难排查。Claude Science 还在 beta,真实效果要等更多实验室长期使用后才能判断。但它把一个方向说得很具体:Agent 的价值不只在于多跑几步,而在于每一步都能被追踪、复核、恢复和纠正。7:54主持今天可以带走一句判断:科研 Agent 的门槛,不是把 Jupyter、PubMed、HPC 和大模型塞进同一个界面;门槛是让这些东西形成一条能被人类审计的工作循环。没有这条循环,自动化越强,越像一个跑得很快的黑盒。下次你看一个 Agent 产品,不妨先找它的证据链在哪里。