AI Agent 生态速报 | 2026-05-24:Webwright 让 Web Agent 基准翻倍,DeepMind 证了 9 道 56 年数学难题

AI Agent 生态速报 | 2026-05-24:Webwright 让 Web Agent 基准翻倍,DeepMind 证了 9 道 56 年数学难题

Microsoft 开源 Webwright 框架:1000 行代码将 GPT-5.4 在 Odysseys 基准上从 33.5% 提升到 60.1%;Google DeepMind AlphaProof Nexus 自主证明 9 道埃尔德什难题,每道仅需数百美元;AI Agent 商业模式正式分裂为开源基础设施、模型分发、SaaS 订阅、跨境并购四条不兼容路径;腾讯开源 4 层本地 Agent 内存管道;生产侧可观测性缺口引发正式讨论。

Agent 生态周报
2026/5/25 · 10:04
1 订阅 · 33 内容
4

研究速览

Agent 生态本周有几件值得认真看的事:微软用 1000 行代码在 Web Agent 基准上翻倍、DeepMind 让 AI 自主证了 9 道 56 年悬而未决的数学题、Agent 商业模式正式分裂为四条互不兼容的路径,同时生产侧的可观测性空缺开始引发正式讨论。

Microsoft Webwright:1000 行代码,Odysseys 基准翻近一倍

微软研究院 AI Frontiers 实验室于 5 月 24 日开源了 Webwright,一个终端原生 Web Agent 框架,总代码量约 1000 行,无复杂多 Agent 编排,只跑单 Agent 循环 1
框架的核心思路是:不让 Agent 点击截图坐标,而是让它编写 Playwright 浏览器自动化代码、执行 bash 命令并根据日志迭代。浏览器被当成可随时启动和丢弃的资源,代码和日志作为持久产物留在工作区——这套模式和工程师写 RPA 脚本的方式一致,而不是对着网页截图做坐标预测。
基准结果:
基准模型成绩
Odysseys(长周期多网站)GPT-5.4 + Webwright60.1%
Odysseys(基线对比)裸 GPT-5.433.5%
Odysseys(前 SOTA)Claude Opus 4.644.5%
Online-Mind2WebGPT-5.4 + Webwright86.67%
Online-Mind2Web(困难分割,小模型)Qwen3.5-9B + Webwright66.2%
Webwright 在 Odysseys 上将 GPT-5.4 的成绩从 33.5% 提升到 60.1%,绝对提升 26.6 个百分点,超过了此前最好的 44.5%。成本方面,GPT-5.4 驱动时平均每任务 $2.37,Claude Opus 4.7 驱动时效果略好但成本跳到 $6.09(因为 Opus 价格更贵,尽管步数更少)。
框架开源地址:github.com/microsoft/Webwright,支持接入 OpenAI、Anthropic、OpenRouter,生成的任务脚本也可在 Claude Code 和 Codex 之间复用。
Webwright 架构总览,展示 Runner、Model Endpoint、Environment 三核心模块及交互流程
Webwright 架构示意:单 Agent 循环,代码与日志作为工作区产物 1
对技术选型的直接含义:Webwright 证明了框架本身仍有很大的提升空间——相同底层模型,用不同 Agent 循环设计,基准分数差距可以达到 80%(33.5% → 60.1%)。在选型时,"选哪个模型"和"如何组织 Agent 循环"同等重要。

DeepMind AlphaProof Nexus:AI 自主证出 9 道 Erdős 数学难题

Google DeepMind 在 5 月 24 日公开了一项更难忽视的结果:AlphaProof Nexus Agent 从保罗·埃尔德什遗留的 353 道开放数学难题目录中,自主证明了其中 9 道,其中两道问题已经悬而未决超过 56 年 2
这里的「自主证明」有严格含义:Agent 生成的是可被 Lean 编译器逐步机器验证的形式证明,不是自然语言摘要,也不是复述已知答案。其中问题 #125(1996 年开放)涉及三进制与四进制整数集合的「和集」性质,Agent 利用了一个非直观的数论见解——部分整数对满足 的丢番图逼近关系——来解决猜想。这类推理路径在此前的训练语料中不存在现成答案。
推理成本:每道题数百美元,仅用基础 LLM + Lean 验证循环的精简版本也事后验证了全部 9 道。完整 Agent(含进化搜索 + AlphaProof 强化学习模块)在更难的 #125 和 #138 问题上比基础版成本效率高 2–5 倍。
这与前周 OpenAI 模型否定埃尔德什 1946 年单位距离猜想是两件不同的事:OpenAI 的结果是否定了一个已知猜想,DeepMind 的结果是从头构造了新证明。AI 用于严肃数学研究的路径正在分化为「否定猜想」与「构造证明」两种不同模式。
正在加载链接预览…

Agent 商业模式四裂:四条路径互不相容

TechTimes 发布的深度分析把目前 AI Agent 市场中最受关注的四个项目拆解为四种原型 3,这个框架本身值得保留:
项目模式核心指标商业路径
OpenClaw开源基础设施37 万 GitHub stars(5 月底)MIT 协议;创始人 Steinberger 加入 OpenAI,OpenClaw 转至独立基金会
Hermes Agent研究室分发OpenRouter 日均 2240 亿 tokens(5 月 10 日峰值)驱动 Nous Research 模型推理;无订阅收入
GensparkSaaS 订阅$2 亿 ARR,$1.6B 估值,B 轮扩展至 $3.85 亿$30/用户/月,2+ 百万 MAU,100K 付费席位
Manus跨境并购Meta $20 亿+ 收购要约(已受阻)中国国家发改委 4 月 27 日叫停,两名联创被禁止出境
关键判断:这四个项目并不在同一市场竞争。编码 Agent 平台(Claude Code ~$10 亿 ARR、Codex 200 万周活、Cursor ~$293 亿估值、Copilot 470 万付费用户)才是 Agent 层真正的商业主导者,上表四个项目各自测试的是四种不同的「Agent 层应该怎么赚钱」的假设。
这四种假设在结构上互不兼容:开源大规模分发和 $30 席位订阅无法同时成立;跨境并购在中美双向阻力下已经成为政治事件而非商业交易。没有一种假设目前被证伪,也没有一种被证实为主流。
正在加载链接预览…

Agent 记忆层:腾讯开源 TencentDB Agent Memory

腾讯于 5 月 23 日在 MarkTechPost 披露了一个工程细节:开源了 TencentDB Agent Memory,MIT 协议,4 层本地内存管道 4
四层架构分别对应不同时间粒度的记忆:符号化短期存储(当前任务上下文)、向量化中期存储(任务间关联)、结构化长期存储(持久知识)和元认知层(元任务策略)。设计上支持与 OpenClaw 和 Hermes Agent 集成,不依赖外部 API。
在持续追踪的 Agent 内存赛道(delta-mem / agentmemory v0.8.2 / mem0 / Letta)中,TencentDB Agent Memory 的差异点是:完全本地运行、MIT 协议、数据不出本地。在企业部署数据合规要求较严的场景,这是对 mem0 等有云端依赖方案的直接替代候选。

生产侧:谁在监控 Agent?

The New Stack 在 5 月 24 日刊发了一篇来自 Qumranet 联合创始人 Moshe Bar 的观点文章,明确说出了一个已在多数生产团队成为实际问题但少有人公开讨论的缺口 5
「很多正在部署多 Agent 系统的团队,其运行可见性低于十年前的微服务。他们信任输出,却不理解产生输出的路径。」
具体表现是:一个本应两步完成的请求变成了数十次模型调用;Agent 在彼此之间循环,延迟缓慢上升,成本跟随爬升,但没有任何触发告警的崩溃。最难排查的是「一切看起来正常,但答案错了」——一个 Agent 超时,另一个补偿,第三个用局部上下文填空,最终输出的错误被埋在几十个决策步骤深处。
Agent 系统和普通分布式系统的本质差异:它们是「动态执行图」而不是固定调用链——路径会根据中间结果变化。看单次调用日志和看单个栈帧的关系是一样的:你能看到局部,但看不到为什么系统最终到达那个状态。
ClickHouse CTO Alexey Milovidov 同日在 The New Stack 发布了他们一年使用编码 Agent 的实证报告 6,其中一个数据值得记录:用 Agent 修复 flaky test,在两个月内提交约 700 个 PR,让 CI 失败率从每天约 200 个发现降到每 1000 万次测试运行 3–5 个。他对一线使用的总结之一:「这是思考工具,不是替代工程判断的工具。它是乘数——强工程师用 Agent 变得更锋利,弱工程师用 Agent 会制造更多损坏。」

编码 Agent 战局:xAI Grok Build 已入场

补充上周的一条信息:xAI 于 5 月 15 日发布了 Grok Build,面向开发者的终端 Agent,支持 8 路并行代码生成,目前对 SuperGrok 和 X Premium 用户开放 7
结合本周的 Webwright,编码 Agent 战场现在有:Claude Code、Codex CLI、Cursor Composer 2.5(Kimi K2.5 后端)、Grok Build、Webwright 五个独立终端 Agent 入口,以及此前已跟踪的 DeepSeek Harness。底层 LLM 之间的竞争正在向「框架 + 循环设计」层延伸,这也是为什么 Webwright 的 26.6 个百分点提升在方向上是对的——相同模型,不同 Agent 架构,基准分可以差一倍。

本期索引
  • 框架/工具:Microsoft Webwright(开源,github.com/microsoft/Webwright)、TencentDB Agent Memory(开源,MIT)、xAI Grok Build(SuperGrok/X Premium)
  • 研究:DeepMind AlphaProof Nexus(Erdős 9 道,$200/题)2
  • 趋势:Agent 商业模式四分化、生产监控缺口、ClickHouse 实证报告

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。