Anthropic 让 AI 自主做对齐研究：AAR 系统 PGR 从 0.23 跳到 0.97 意味着什么

Anthropic 在 2026 年 4 月 14 日发布了一篇技术报告，正式名称是「Automated Alignment Researchers: Using large language models to scale scalable oversight」1。这件事比表面看起来更值得在意——不是因为论文名字听起来很厉害，而是因为它正式确立了一个新的研究方向：让 AI 自己去做 AI 安全研究，并且有了第一批可以量化的结果。

基本信息

项目	内容
论文全名	Automated Alignment Researchers: Using large language models to scale scalable oversight
机构	Anthropic
发布日期	2026-04-14
一手链接	anthropic.com/research/automated-alignment-researchers
Venue	技术报告（Anthropic Research），未经同行评审，非会议/期刊投稿
开源	MIT 许可，代码已在 GitHub 公开2

Alignment Science Blog 同期以「Automated Weak-to-Strong Researcher」为标题发布了内部视角解读3，可与原报告对照阅读。

需要特别说明一点：Nature 第 651 卷在 2026 年 3 月刊出的「Towards end-to-end automation of AI research」（Chris Lu 等）4 是完全独立的工作，不是 AAR 的期刊版，两者不可混淆。

作者团队

核心作者为 Jiaxin Wen 与 Liang Qiu（共同一作），其余作者包括 Joe Benton、Jan Hendrik Kirchner、Jan Leike1。Jan Leike 此前在 OpenAI 从事 Superalignment 相关工作，后加入 Anthropic 继续对齐研究；他的参与使这篇报告在「AI 主导对齐研究」这一方向上具有相当的连续性背书。

论文在做什么：三句话版

研究问题很直接：能不能用 LLM Agent 来自动化执行对齐研究任务，从而缓解对齐研究员不够用的瓶颈？

答案是：可以，而且这套系统（AAR）在「强化学习奖励建模」这个子问题上，把性能缺口从 77% 压缩到了只剩 3%。

代价是：800 研究小时，9 个并行 Agent，$18,000 计算成本1 5。

系统架构：9 个 Claude Opus 4.6 并行干活

AAR 系统架构示意：9 个 Claude Opus 4.6 Agent 并行运行，通过 Orchestrator 汇聚至对齐研究产出

AAR 的技术路线是「多 Agent 并行 + 端到端沙箱执行」。系统核心是 9 个 Claude Opus 4.6 Agent 同时运行，每个 Agent 具备独立的研究执行能力——包括文献检索、代码生成与调试、实验运行、结果分析——整个过程端到端在沙箱环境内完成，不需要人工介入每一步1。

这里有个关键设计决策值得注意：为什么是 9 个并行而不是一个顺序迭代？大概率是因为对齐研究本身有高度不确定性——很多研究思路在试到一半才发现走不通。并行运行等于同时在跑多个假说，失败成本被摊薄了，总体吞吐量更高。

系统配套了完整的基础设施：沙箱环境、数据集、基线代码库，以及 Agent 代码本身，全部以 MIT 许可开源2（repo 约 198 stars2）。

核心指标：PGR 是什么，数字说明什么

AAR 论文用 PGR（Performance Gap Reduction，性能缺口压缩率） 作为主要评估维度1 5。

PGR 衡量的是：给定一个人类研究员能到达的性能上限，和不做任何研究的 baseline，AI 系统能压缩掉多少百分比的差距。

$$\text{PGR} = \frac{\text{AI 系统达到的性能} - \text{baseline}}{\text{人类上限} - \text{baseline}}$$

AAR 强化学习奖励建模任务 PGR

目标任务：强化学习奖励建模；完整运行参数：9 个并行 Agent，800 研究小时，$18,000 计算成本

无 AAR 介入时 PGR

AAR 运行后 PGR

0+0.7%绝对提升

总计算成本

$0.00

研究小时数

正在加载统计卡片...

PGR 从 0.23 升至 0.97 意味着：AAR 在奖励建模这个子任务上，消除了人类研究员与 baseline 之间 97% 的性能差距，只剩 3% 的缺口1。

这个数字令人印象深刻，但读的时候要保持警惕。有几个限制需要明确：

限定 1：任务范围很窄。奖励建模是对齐研究的一个子问题，不等于「端到端对齐研究自动化」。AAR 能否在更开放、更需要创造性假说的研究任务上复制这个成绩，报告没有给出数据。

限定 2：$18,000 的成本对于研究探索阶段并不算夸张，但如果要规模化到 100 个研究方向并行推进，成本曲线怎么走？报告也没有覆盖。

限定 3：评估指标本身（PGR）由研究团队定义，是否能作为对齐研究进展的通用度量，还需要社区验证。

与 Scalable Oversight 的关系

理解 AAR 的背景需要回到 Anthropic 长期推进的「Scalable Oversight」路线。核心矛盾是：随着 AI 系统变得越来越强，人类越来越难以评估 AI 的输出是否正确——特别是在专业领域（如数学证明、代码安全、复杂推理）。Scalable Oversight 在问的是：能不能用 AI 来帮助人类监督更强的 AI？

AAR 是这个方向的一种具体实例化：不只是用 AI 辅助人类评估，而是用 AI 主动生成对齐研究成果，再由人类审核。这个「交接机制」如何设计，是系统是否安全可靠的核心问题3。

报告名字里的「Weak-to-Strong」也是一个关键概念：较弱的监督者（人类或弱模型）能否有效监督更强的 AI 系统？Anthropic 的方向是，先让较弱的系统做研究，产出可被验证的结论，再循环迭代。

社区反应：Jack Clark 的分析框架

Anthropic 联合创始人 Jack Clark 在 Import AI #454（2026-04-20）和 #455（2026-05-04）连续两期分析了 AAR5 6。他的框架值得参考：AAR 代表的是「安全研究的工业化」——把此前高度依赖个别研究员直觉和经验的工作，转化为可以部分自动化、规模化执行的流水线。

LessWrong 社区对 AAR 的讨论聚焦在另一个角度：当 AI 系统自己做对齐研究时，谁来保证这个研究过程本身是对齐的？7 这是个典型的自指悖论——用可能存在错位的系统来研究如何避免错位。这个问题 AAR 报告没有给出令人满意的答案，这也是它最值得深入质疑的地方。

开源状态与可用性

github.com

anthropics/automated-alignment-researchers

MIT 许可开源，含完整沙箱环境、数据集、基线代码与 Agent 代码

正在加载链接预览...

代码库：github.com/anthropics/automated-alignment-researchers，MIT 许可2
包含内容：沙箱环境、实验数据集、基线实现、Agent 代码
API/Demo：无公开 Demo，需自行部署运行
模型依赖：Agent 底层模型为 Claude Opus 4.6，需要 Anthropic API 访问权限

对于打算复现或在此基础上做研究的人：代码库提供了足够的基础设施，但 Claude Opus 4.6 的 API 成本不低，$18,000 是完整运行的参考数字，初步复现可以先从单个 Agent、缩减实验规模开始。

技术路线影响研判

AAR 对几类读者的实际意义不同，值得分开说：

对对齐研究者：这是一个具体的方法论输入，不是终点。PGR 0.97 这个结果提示，在有清晰 benchmark 的对齐子问题上，自动化研究已经具备实用价值。但对齐研究中大量工作涉及开放性问题的框架建立，目前没有证据说明 AAR 能处理这类任务。值得关注后续报告中任务范围的扩展。

对 AI 系统研究者：多 Agent 并行 + 端到端沙箱执行这套架构本身有参考价值，不只是在对齐领域。任何「探索空间大、失败成本可接受、结果可程序化评估」的研究任务，都可能受益于类似框架。可以对照 DeepMind 同期发布的 Decoupled DiLoCo8（arXiv:2604.21428）理解分布式大规模 AI 系统的整体方向。

对工程师：MIT 开源意味着可以直接基于代码库做二次开发。最实际的切入点可能是把 AAR 的沙箱框架移植到内部研究工作流，替换掉底层的 Claude Opus 4.6。

更大的问题：AAR 指向的不只是「对齐研究自动化」，而是一个更宽泛的命题——AI 研究本身的工业化。Import AI #455 的标题是「AI systems are about to start building themselves」6，这个判断是否言过其实，取决于 AAR 后续能否在更难的任务上复制这次的结果。

2026 年 4 月这份报告，既是一个技术结果，也是一个研究议程的公开宣言。Anthropic 在明确说：对齐研究本身可以自动化，而且他们已经有第一批数据支撑这个方向。接下来值得追踪的，是 PGR 指标能否在奖励建模以外的任务上站稳，以及「AI 审核 AI 研究」的安全交接机制如何具体落地——这两个问题的答案，会决定这条路线的真实价值边界在哪里。

Anthropic 让 AI 自主做对齐研究：AAR 系统 PGR 从 0.23 跳到 0.97 意味着什么

基本信息

作者团队

论文在做什么：三句话版

系统架构：9 个 Claude Opus 4.6 并行干活

核心指标：PGR 是什么，数字说明什么

与 Scalable Oversight 的关系

社区反应：Jack Clark 的分析框架

开源状态与可用性

anthropics/automated-alignment-researchers

技术路线影响研判

参考来源

anthropics/automated-alignment-researchers