2026-06-06

AI Agent 生态速报 | 2026-06-06：Anthropic 用数字证明 AI 正在自构建，51 框架横测结果出炉

Anthropic 发布「When AI builds itself」报告：2026 年 5 月 80%+ 代码由 Claude 编写，工程师人均产出 8×，Claude Mythos Preview 开放式任务成功率 76%；同日提出行业暂停协调机制。ADK Arena（51 框架横测）发现框架选择影响超过模型选择，Haystack/AG2 通用稳定性最优。agentmemory（21k+ 星）成为 Agent 跨会话记忆独立赛道代表。

Agent 生态周报 @chinamusk

本期速览

今日最重要的信号不是某个新版本，而是 Anthropic 把「AI 自构建 AI」从预言变成了可验证的当下事实——并附上了一份完整的量化数据。与此同时，史上最大规模的 ADK 框架横测（51 款）提供了迄今最可靠的选型依据；agentmemory 项目用 21.4k 星表明 Agent 记忆层正在成为独立赛道。

Anthropic「AI 正在自构建」：从预警到数字

Anthropic 今日发布「When AI builds itself」报告，这是迄今对递归自改进进展最详尽的公开披露1。

最关键数字： 2026 年 5 月，Anthropic 合并到代码库的提交中，超过 80% 由 Claude 编写。2025 年初 Claude Code 研究预览发布前，这一比例还只是个位数1。

更直观的是人均产出倍数——Q2 2026，典型 Anthropic 工程师每季度合并的代码量是 2021–2025 年均值的 8 倍，因为现在的工作模式是「工程师负责方向和评审，Claude 负责编码」1。

Claude 各代模型发布与人均季度代码产出倍数（Q2 2026 已达 8×） — Q2 2026 工程师人均季度代码产出达到 2021–2025 平均的 8 倍 1

Anthropic 披露的其他数据点同样值得记录：

任务时长能力：AI 能独立完成的软件任务时长约每 4 个月翻一倍。2024 年 3 月（Claude Opus 3）是 4 分钟；2025 年 3 月（Claude Sonnet 3.7）是 1.5 小时；2026 年 3 月（Claude Opus 4.6）是 12 小时；Claude Mythos Preview 目前至少可持续工作 16 小时1。
代码会话成功率：截至 2026 年 5 月，Claude Code 处理开放式问题的成功率达 76%，6 个月内提升了 50 个百分点1。

Claude Code 各难度级别任务成功率折线图（2025 年 9 月至 2026 年 5 月） — Claude Code 会话成功率变化趋势，开放式任务（最难类别）6 个月内从约 26% 跃至 76% 1

研究方向判断：Claude Mythos Preview 在「选择下一步研究方向」上 64% 的判断优于人类研究员（同等条件下），较 2025 年 11 月的 Opus 4.5（51%）显著提升，说明「研究品味」也在随规模增长1。
一次典型演示：2026 年 4 月，Claude Agent 自主完成了一个 AI 安全开放课题——人类只给了问题定义和评分标准，Claude 自行设计实验，用 800 计算小时（$18,000 算力）达成了 97% 性能上限；两名人类研究员花一周只做到 23%1。

Anthropic 将当前阶段定义为「自主 Agent」（能独立运行代码、将多小时工作委托给子 Agent），下一阶段目标是「闭环」——AI 完全自主地构建和训练自身后继版本1。

与同日暂停提案的关系：正是基于上述进展，Anthropic 同日向业界提出了协调「暂停」的政策倡议——当前沿 AI 变得过于危险时，业界应具备协调停下来的机制2。这与昨日 Jack Clark 发布的「递归自改进预警」博客一脉相承，但从研究观察升级成了具体政策主张。OpenAI 随即回应表示，AI 节奏的决定权不应交给单一实验室2。

ADK Arena：51 款框架横测，框架选择比模型更重要

微软 CoreAI 与俄亥俄州立大学联合发表论文《ADK Arena: Evaluating Agent Development Kits via LLM-as-a-Developer》（arXiv 2606.05548），这是目前覆盖范围最广的 ADK 横向评测3。

方法论：用「LLM-as-a-Developer」代替人工开发者——给 LLM 框架文档和源码，让它学 API、写 Agent、迭代修 bug，然后跑 SWE-bench、τ²-bench、MCP-Atlas、Terminal-Bench 四个真实基准。通过固定「开发者变量」、只改框架，量化了 51 款框架的 API 可用性和 Agent 能力3。

关键发现：

发现	数据
生成成功率（能跑通基准）	57%（408 个 Agent 中 232 个通过）
生成成本差异	5.6×（$0.6 到 $3.4 / Agent）
最佳框架单基准最高解决率	80%（可超越通用前沿编程 Agent）
中位数框架解决率	仅 32%
开发模型影响	Opus-authored Agent 解决率约为 GPT-authored 的 2 倍

主要结论3：

没有全能冠军：不存在在所有基准上都领先的框架；Haystack 和 AG2 是 API 最易习得且覆盖最稳定的（两个 LLM 开发者、四个基准均通过），但单项最高成绩由其他框架把持。
框架选择 > 模型选择：同一框架，用 Opus 还是 GPT 来生成 Agent 代码，性能差异约 2 倍——这个选择比换底层模型更有决定性影响。
API 设计是第一生产力：生成成本低（如 LangGraph、OpenAI Agents SDK）通常意味着 API 设计简洁、文档质量高；成本高的框架 API 表面积大，新手接入更难。
文档、源码和参数知识可互换：无论给框架文档、源码还是什么都不给，框架通过率都在 28–40% 之间波动，说明「文档质量」本身不是瓶颈，框架 API 本身的设计才是。

对技术选型的参考价值：这份评测第一次给出了从「API 可用性」（生成成本作为代理指标）和「Agent 实际性能」（4 个基准解决率）两个维度同时量化的框架对比。工具链投入大的团队可参考 Haystack / AG2 的稳定性；追求单一任务极限性能的团队应按目标任务类型（代码 / 工具调用 / 终端交互）分别对比。

ADK Arena 评测流水线 — ADK Arena 自动化评测流水线：环境设置 → Agent 代码生成（文档探索 + 迭代修复）→ 基准测试执行 3

agentmemory：Agent 记忆层的 GitHub #1

github.com/rohitg00/agentmemory 当前已积累 21,400+ 星，登上 Trendshift 仓库榜首4。

它解决的问题直接：编程 Agent 无法跨会话记住上下文——每次开新会话，你都要重新解释项目背景。agentmemory 在本地或自托管服务端运行一个持久记忆层，通过 MCP、钩子或 REST API 与 Agent 连接4。

技术侧几个关键指标：

95.2% 检索 R@5（召回率），使用混合搜索（向量 + 关键词）
92% token 减少（复用记忆而非重传上下文）
53 个 MCP 工具，12 个自动钩子（无需手动触发）
0 外部数据库依赖，纯本地运行

兼容范围：Claude Code（原生插件 + 12 钩子 + MCP）、Codex CLI、GitHub Copilot CLI、Cursor、Gemini CLI、OpenCode、Cline、Windsurf、Roo Code 等 18+ 工具4。

选型判断：这个项目的高 star 数不来自模型能力，而来自对工具链摩擦的精准消除——「不用重新解释项目」是每个重度编程 Agent 用户的共同痛点。它是 iii engine 的上层实现，架构上属于独立记忆中间件，而不是某个特定框架的内置功能，因此跨框架迁移成本低。

github.com · GitHub リポジトリ

rohitg00/agentmemory

https://github.com/rohitg00/agentmemory

コンテンツカードを読み込んでいます…

社区动向

ADK 评测方法论本身成为讨论焦点：ADK Arena 用「让 LLM 当开发者」来替代人工写 benchmark 代码，研究者指出这一方法论的副产品——生成成本可以作为「API 学习曲线」的客观量化代理——是目前唯一能以统一口径评估文档质量和 API 设计的指标3。

OpenAI 社区出现 MCP 工具结果格式 bug：openai.com/community 在昨日出现关于「MCP tool result wrapped as multimodal_text + parts[]，模型无法提取结构化数据，链式工具调用失败」的 bug 报告5。该问题说明 MCP 协议的工具结果格式处理在不同 SDK 实现间尚存边界问题。

AI CEOs 联名致信国会：OpenAI、Anthropic、微软三家 CEO 联名致信，要求国会立法强制生物武器合成 DNA 筛查——AI 使生物武器制造门槛下降是推动力6。

跨轮跟踪

事项	状态
Anthropic $36B TPU 交割	截至今日无「已完成」公告，继续跟踪
Anthropic Agent SDK 独立计费	还剩 9 天（6 月 15 日生效）
Anthropic IPO	S-1 保密；10 月目标；Opus 4.8 已发布（含最新 Claude 版本）7
SpaceX IPO	$75B 目标，本月；含 xAI
GPT-5.6 / Mercury-alpha	传言仍高热，官方未公告
Claude Mythos	发布窗口 6–7 月；本报告首次披露 Mythos Preview 内部数据
Foundry Hosted Agents GA	30 天内（从 6/3 计）