AI Agent 技术周报 Vol.03｜记忆、提速、生态三线同步爆发

本期时间窗口：2026-05-25 至 2026-06-01

本期速览

本周 Agent 圈最大的动作集中在三个方向：记忆机制从理论走向可落地框架，旗舰模型给出了更便宜的高速档，框架生态在 Interrupt 2026 大会上交出了生产级答卷。资本层面，Anthropic 完成 $650 亿 H 轮，估值正式超越 OpenAI。

📄 论文速报：Agent 记忆集中爆发

本周 arXiv 至少两篇工作直接击中 Agent 长期记忆这个痛点。

**SAM（State-Adaptive Memory）**提出了一个不需要重新训练骨干模型的状态自适应记忆框架。1 它把交互历史压缩成紧凑的「记忆提示」，同时保留原始轨迹页面供按需召回。核心洞察是：过去的信息在哪个时刻被需要，应该由当前 Agent 状态决定，而不是固定的窗口或压缩策略。实验跑在 BrowseComp、WideSearch 和 HLE 等长视野基准上，SAM 对多个骨干模型均有稳定提升。

与 SAM 同期的 MemGym 是面向长期任务的记忆专项基准。2 它用五个测评赛道覆盖工具使用对话、深度研究搜索、软件工程和计算机使用四类场景，输出「记忆隔离分数」，把记忆能力从推理、工具调用中单独剥离出来评估。为了降低在编码环境评估的成本，MemGym 还训练了基于 Qwen3-1.7B 微调的轻量奖励模型 MemRM，替代完整 Docker 部署。

这两篇工作的意义在于：评估框架和解决框架同步出现，说明社区已经在认真对待 Agent 记忆，而不只是把它当作模型能力的附属品。

🚀 Claude Opus 4.8：同价位、快 2.5 倍

5 月 28 日，Anthropic 发布 Claude Opus 4.8。3 定价维持 $5/$25（每百万输入/输出 token），最大的变化有两处：

Fast Mode（研究预览）：同一模型跑出约 2.5 倍的输出速度，价格降至约 1/3，即 $10/$50 per million。
Dynamic Workflows：Claude Code 内可以并发拉起多达 1000 个子 Agent 并行处理大规模任务，适合跨仓库、多步骤的复杂工程场景。

Dynamic Workflows 的上限是 1000 个子 Agent。这个数字本身不是重点，重点是 Anthropic 把并行编排正式纳入了 Claude Code 的核心能力，而不是让开发者自己搭协调层。和上期提到的 Token 成本危机放在一起看，Fast Mode 降价 3 倍是直接回应。

🔧 框架生态：LangChain Interrupt 2026 大会

5 月 27 日，LangChain 举办 Interrupt 2026，三项发布值得标记。4

LangSmith Engine 是本次最重要的产品。它监控生产环境中的 Agent 轨迹，把重复出现的故障聚类成可命名的问题，自动诊断根因并给出修复建议供审核。目标是让开发者不再花大量时间手动翻 trace。

Sandboxes GA 正式发布，为 Agent 代码执行提供安全隔离环境，已集成 DeepAgents SDK 和 LangSmith 平台。

LangChain Labs 是面向 Agent 持续学习的开放应用研究计划，首批合作方包括 NVIDIA、Harvey、Prime Intellect、Fireworks 和 Baseten。

Interrupt 2026 的 23 场演讲已全部上线点播，来自 Cisco Customer Experience、LinkedIn、Rippling 等工程团队。5

💰 行业动态：Anthropic 估值超 OpenAI，NVIDIA 定义「AI 工厂」

Anthropic 5 月 28 日确认完成 $650 亿 Series H，投前估值 $9000 亿，超过 OpenAI 此前 $7300 亿的最高估值记录。6 本轮战略投资方引人注目：Samsung、SK Hynix 和 Micron——三家存储和内存芯片大厂。Anthropic 说这些合作直接服务于 Claude Code 大上下文需求带来的算力扩张。

Anthropic 累计融资金额超过 $1300 亿。

NVIDIA 方面，Jensen Huang 在 5 月 26 日发布的文章中提出「五层蛋糕」框架来描述 AI 基础设施：能源→算力→软件→Agent→物理 AI，从底层资源到应用层依次堆叠。7 NVIDIA 同期发布针对 Agentic AI 设计的 Vera CPU，Phoronix 的基准测试显示其综合性能比主流 x86 处理器高 1.5 倍。

🌐 社区信号

本周社区讨论围绕几个点收敛：Codex 已经能「管理自己的会话」——创建、归档、置顶线程，为并行任务拉起独立 worktree；开源的 Sandcastle 框架（来自 @mattpocockuk）允许用 TypeScript 脚本编排 Codex、Claude Code、Cursor 等多个 Agent 协同完成任务。「Agent 收据」（Agent receipts）成为安全讨论的焦点词，IETF 正在起草草案，Microsoft 已经推出 AGT v3.0，重点是让 Agent 行为可审计、可追溯。

下期预告：Karpathy 在 Anthropic 预训练团队的首批进展；A2A 协议 50+ 合作伙伴后的下一步；Claude Agent SDK 6 月 15 日定价结构变化。