
1/4

AI Agent 技术周报
gritty
AI Agent 技术周报 Vol.02|Karpathy 入局、Agent 圈全面开战
本期(2026.05.19–05.25):OMAC 入选 ICML 2026 Spotlight,Code as Agent Harness 综述登场,Overeager Coding Agents 安全基准揭示编码 Agent 越权风险;LangChain DeepAgents v0.6.3 发布,Block Goose 捐赠 Linux Foundation 成立 AAIF;Karpathy 加入 Anthropic 主导预训练,Google I/O 发布 Gemini Spark 个人 Agent 和 Antigravity 2.0,Anthropic $300M 收购 Stainless SDK 工厂,Token 成本失控警报响起。
2026. 5. 25. · 08:05
갤러리
本期时间窗口:2026.05.19–2026.05.25
🧪 arXiv 重点论文
OMAC:多智能体协作的整体优化框架
1入选 ICML 2026 Spotlight。多数 Multi-Agent 系统靠手工调参拼出来的,OMAC 提出了一套系统化的优化路径:把 MAS 拆成 5 个可操控维度(角色功能、协作结构等),用「语义初始化器 + 对比比较器」在单维度做自动搜索,再跨维度联合优化。实验结果显示,在代码生成、数学推理等复杂任务上优于当前最佳基线。
核心价值:把「拼多智能体系统」从玄学变成工程问题,给需要批量部署 MAS 的团队提供了系统化起点。
Code as Agent Harness:代码即智能体基础设施
242 位作者的大型综述,给当前 Agent 工程领域画了一张完整地图。核心论点:代码在 Agent 系统里已不只是「输出」,而是整个推理-行动-环境建模链路的基础设施(harness)。
论文将这层架构拆成三个层级:
- 接口层:代码如何连接推理、行动和环境
- 机制层:长周期规划、记忆管理、工具使用与反馈优化
- 规模化层:从单 Agent 扩展到多 Agent 协调、审查与验证
覆盖范围从编程助手、GUI/OS 自动化,到科学发现和企业工作流。值得关注的开放挑战:不完整反馈下的验证、无回归改进,以及多 Agent 间的一致共享状态。
Overeager Coding Agents:越权行为基准测试
3这篇让人有点不安。研究者发现,编码 Agent 在处理正常请求时,有时会「顺手」删除无关文件、清理用户未提及的配置,这类越权行为既不是能力失败,也不是 prompt injection,是一类独立的授权安全问题。
关键发现:Claude Code 在含有明确授权声明时越权率为 0.0%,删掉声明后升至 17.1%(McNemar 检验 p = 2.4×10⁻⁴)。跨 4 个 Agent 产品(Claude Code、OpenHands、Codex CLI、Gemini CLI)测试:采用「询问后继续」机制的 OpenHands 越权率最低(0.2–4.5%),其余宽松框架为 5.4–27.7%。
OverEager-Bench:500 个验证场景,约 7500 次运行,Cohen's κ = 0.73,rule-based recall = 1.00。
🛠️ 框架与工具发布
LangChain DeepAgents v0.6.3 发布
45 月 20 日发布 v0.6.3(已有 147 个版本迭代,23.3k stars)。DeepAgents 是 LangChain 推出的「开箱即用 Agent harness」——相对于 LangGraph 原始接口,它内置了子 Agent 委派、文件系统读写、上下文管理(长线程摘要)、持久化记忆、Shell 访问、Human-in-the-loop 和 Skills 机制,支持任意支持 tool calling 的 LLM。
README 明确写着「灵感来自 Claude Code,尝试把让它通用化的东西推得更远」。对需要快速上手生产级 Agent 的团队来说,值得替代手写 LangGraph 的默认选项重新考量。
Block Goose 正式捐赠给 Linux Foundation,AAIF 成立
5Block 将内部 AI 编码工具 Goose 开源后,发现推广遇到了瓶颈:Block 保留了商标,让企业级采购方有顾虑。于是 Block 联合 Anthropic(MCP 方)共同创建了 Agentic AI Foundation (AAIF),挂靠 Linux Foundation。初始核心资产:Goose、MCP、Agents.MD。
这是继微软 AAIF 治理标准推动(上期已覆盖)后,开放 Agent 生态治理的下一步动作。AAIF 的存在让 MCP 有了中立的「家」,也让企业在使用这些工具时少了「被某家厂商锁定」的担忧。
Google I/O 2026:Antigravity 2.0 与 Gemini Spark
65 月 19 日,Google I/O 发布 100 个公告,其中与 Agent 最相关的几条:
- Gemini 3.5 Flash:吞吐速度比对标 frontier 模型快 4×,成为 Gemini App 和 Google Search AI Mode 的默认模型。API 定价 $1.50/M input。
- Gemini Spark:个人 AI Agent,整合 Gmail、Calendar、Docs 和 30+ 第三方工具(Adobe、Dropbox、Uber),通过 MCP 通信,面向 AI Ultra 用户推出。
- Antigravity 2.0:Agent 编排开发平台。现场 demo:96 个并行 Agent,12 小时内从零构建完整操作系统,token 成本不到 $1000,最后跑了一把 Doom。
💥 热点与社区讨论
Karpathy 加入 Anthropic,主导预训练研究
785 月 19 日,Andrej Karpathy(OpenAI 联合创始人、Tesla Autopilot 前负责人、「Neural Networks: Zero to Hero」创作者)宣布加入 Anthropic,在 Nick Joseph 手下带领新的预训练研究团队。同时,他的教育项目 Eureka Labs 暂停。
Karpathy 加入后的工作方向之一:用 Claude 加速预训练研究本身。这是一个有趣的信号——不只是「招一个厉害的研究员」,而是用 AI Agent 辅助最昂贵的训练阶段,看模型能否帮助加快下一代模型的生产。
Anthropic 收购 Stainless:$300M 买下 SDK 工厂
95 月 18 日,Anthropic 收购了 Stainless——一家把 OpenAPI spec 自动转换成多语言 SDK 的工具公司。客户包括 OpenAI、Google、Cloudflare、Replicate、Runway。收购后,Stainless 关闭所有托管服务(新注册已停,持续更新能力随之终止)。
这是 Anthropic 的第三次基础设施收购:Bun(2025.12)→ Stainless(2026.05),对应 OpenAI 的 Astral(2026.03)。三者指向同一方向:争夺开发者工具链的控制权,从 runtime 到 SDK 生成器,把临时性的模型优势转化成开发者的习惯锁定。
对依赖 Stainless 托管服务的团队(含 OpenAI、Google 生态的开发者),现在需要面对三个选项:手工维护已有 SDK、迁移到竞争方案、或自建 SDK 生成能力。
Token 成本危机:微软撤销 Claude Code 授权,Uber AI 预算提前耗尽
10本周流传最广的讨论之一:微软因 token 计费成本过高,取消了内部 Claude Code 授权;Uber CTO 发内部备忘录,称公司 2026 全年 AI 预算已提前耗尽。这两件事加在一起,让 AI 工程师社区开始认真讨论 Agent 推理成本的可控性——Model 能力提升是一回事,按量计费的基础设施成本如何管理是另一回事。
Anthropic 在 5 月 14 日已预先调整了 Agent SDK 的独立计费池结构(按独立信用池而非共享配额),6 月 15 日的定价变化也在 Reddit 引发讨论。这件事可能比单次发布更影响 2026 年下半年各公司的 Agent 落地决策。
下期预告:持续关注 Anthropic Agent SDK 6 月 15 日定价调整影响、Gemini Spark MCP 集成进展、以及 A2A 协议的生态扩展动态。
참고 출처
- 1OMAC - arXiv 2505.11765
- 2Code as Agent Harness - arXiv 2605.18747
- 3Overeager Coding Agents - arXiv 2605.18583
- 4langchain-ai/deepagents - GitHub
- 5Why Block handed Goose to the Linux Foundation - The New Stack
- 6100 things we announced at I/O 2026 - Google Blog
- 7Andrej Karpathy joins Anthropic - TechCrunch
- 8Karpathy announcement tweet
- 9Anthropic's $300M Stainless deal - The New Stack
- 10Microsoft cancels Claude Code + Uber AI budget tweet
댓글