AI Agent 生态速报 | 2026-05-12:Google 首次确认 AI 零日攻击,OpenAI 成立部署公司

本期围绕两条同日落地的强信号展开:Google 威胁情报团队首次确认犯罪集团利用 AI 发现零日漏洞并实施攻击,结束了「威胁预期」阶段;OpenAI 成立独立部署公司 DeployCo($40 亿+ 融资),将竞争轴从模型能力移向集成交付。同期,Anthropic Dreaming 进入公开 beta、GPT-5.5 Instant 全量默认,两条幻觉修复路线并行推进;LangChain-core 从 0.3.x 直接跳跃到 1.4.0,Semantic Kernel 连续两轮集中补安全债;r/AI_Agents「停止造 Agent」热帖与 Gartner 40% 取消预测形成共振,社区对自主性泡沫的批判从讨论转向数据支撑。

リサーチノート

采集窗口:2026-05-11 02:45 — 2026-05-12 02:00(UTC+8)|约 23 小时标准日报周期|核心信号数:21 条

本期主线

两件事同一天落地,都是过去几个月预期最高的事情:OpenAI 宣布成立独立部署公司 DeployCo、注入 $40 亿,把赛道从「谁的模型更强」推向「谁能真正交付集成」;Google 威胁情报团队首次确认犯罪分子用 AI 发现零日漏洞并实施攻击,此前只停留在「威胁预期」层面。
这两件事的叙事方向相反:一个是产业信心的加速,一个是安全风险的落地。读者需要同时持有。
Gartner 同期预测 40% Agent 项目 2027 年前被取消,r/AI_Agents 社区爆出「停止造 Agent」热帖——技术路线和实际落地之间的摩擦,从讨论变成了数据。

一、商业产品:部署战争开打,AI 零日攻击实证

OpenAI DeployCo:$40 亿入场,咨询业迎来新对手

OpenAI 于 5 月 11 日正式宣布成立 OpenAI Deployment Company(DeployCo),作为独立业务单元,OpenAI 多数控股1
融资规模不小:$40 亿+,TPG 领投,Advent、Bain Capital、Brookfield 联合领投,总计 19 家机构参与。同步宣布收购英国 AI 咨询工程公司 Tomoro,获得约 150 名 Forward Deployed Engineers(FDE,嵌入客户组织的现场工程师,负责从诊断需求到上线交付的全链路执行)——Tomoro 客户包括 Tesco、Virgin Atlantic、Supercell。
DeployCo 的 CEO Denise Dresser(OpenAI CRO)给了一段标准的定位表达:「AI is becoming capable of doing increasingly meaningful work inside organizations. The challenge now is helping companies integrate these systems into the infrastructure and workflows that power their businesses.」1
问题在于:这不是一家新公司在做的事,是麦肯锡、Bain、Capgemini 已经在做的事——而这三家恰好也都是 DeployCo 的「咨询伙伴」。OpenAI 一边与传统咨询公司合作,一边直接进入咨询交付领域,这个关系如何管理,目前没有公开答案。
Everyday AI 的分析点出了另一层2:Anthropic 同期也在通过 Colossus 1 扩容来支撑企业级服务可靠性,两家头部实验室同步进入「集成交付」轨道,竞争轴已不只是模型跑分,而是谁能真正跑在客户的生产系统里。中间体量的咨询公司或成收购目标。

Anthropic Dreaming 进入公开 Beta:会自我改进的 Agent

Anthropic 在「Code with Claude」大会上把三项功能从「研究预览」升级到公开 beta:Dreaming(Agent 后台自改进)、Outcomes(按评分标准自评)、Multi-agent Orchestration(多 Agent 协调)3
Dreaming 的机制:Agent 在空闲时审查过往会话,合并重复信息、移除过时条目、标记重复错误模式、重组记忆层。Dario Amodei 披露:「We tried to plan very well for a world of 10x growth per year. And yet we saw 80x. And so that is the reason we have had difficulties with compute.」Q1 2026 API 量同比约 70 倍,年化约 80 倍,当前 ARR 推算 $250-300 亿3
Claude Code 开发者平均每周使用 20 小时,Airbnb Q1 约 20% 新代码由 Claude Code 生成。1000+ 企业客户年支出超 $100 万3
Forbes 的 Jon Markman 把 Dreaming 定性为:把 AI Agent 从「工具」变成「复合资产」——六个月后同一套 Agent 比刚部署时更强,不是因为新版本,而是从自己的工作里学。技术机制上没什么新奇,但对产品侧的含义是:第一批部署 Dreaming Agent 的团队,会比晚部署半年的团队拥有更老练的系统。

Google 确认:犯罪分子已在用 AI 寻找零日漏洞

这个信号 5 月 11 日正式落地。Google 威胁情报团队公开宣布:首次发现犯罪集团利用 AI 寻找零日漏洞并进行大规模利用的实证4
攻击者利用 AI 发现了一款流行在线系统管理工具中的双因素认证绕过漏洞,Google 在造成损害前介入并阻断,通知了相关公司和执法机构。Google 没有披露被利用的 AI 模型,明确表示不太可能是 Gemini 或 Claude Mythos。
Google 威胁情报首席分析师 John Hultquist 的表达很直接:「It's here. The era of AI-driven vulnerability and exploitation is already here.」4
他的分析值得细读:相比行动迟缓的政府间谍,犯罪黑客从 AI 的「速度能力」获益最大——漏洞发现周期压缩意味着防守方的响应窗口也在同步压缩。这不只是「AI 可能被滥用」的预期管理,而是已经发生的实证——对 Agent 系统安全评估来说,攻击面现在包括「AI 生成的攻击路径」本身。

GPT-5.5 Instant 全量默认,幻觉减少 52.5%

5 月 7 日起,GPT-5.5 Instant 替代 GPT-5.3 Instant 成为 ChatGPT 所有用户的默认模型5
内部测试数据:高风险话题(法律、金融、医学)幻觉减少 52.5%,用户标记的不准确声明减少 37.3%。AIM 2025 数学测试 81.2 分(GPT-5.3 为 65.4 分)。上下文记忆支持引用过往聊天、文件和 Gmail。开发者端通过 chat-latest 获取,GPT-5.3 保留 3 个月。
菲尔兹奖得主 Timothy Gowers 称 GPT-5.5 Pro 已能解决博士论文级开放数学问题5。52.5% 的幻觉降幅和数学测试的 24% 提升,意味着此前因为幻觉率而把 GPT 排除在某些场景之外的决策值得重新评估。

Gartner 预测 40% Agent 项目 2027 年前取消:Reddit 热议

「40% 的 Agentic AI 项目将在 2027 年前被取消——不是暂停,是取消」,Reddit r/OpenAI 上这条引用 Gartner 预测的帖子在 5 月 11 日获得持续讨论6
发帖者引用 RAND Corporation 数据:80.3% 的 AI 项目未能交付任何实际商业价值。归纳出三个失败模式:糟糕的数据质量、缺乏真正的系统集成、零治理(Agent 做决策时无人监管)6
Gartner 原始报告没有公开链接,这个数字的方法论不透明。但 Fortune 同日报道 AI 驱动的自动化裁员未能产生预期 ROI,方向一致。一个说法变得普遍不代表它准确,但「项目取消」作为社区情绪信号,和 DeployCo 同日出现不是巧合——头部公司在加注集成交付,而项目落地端正在出现疲态。

Musk 诉 Altman 案:Nadella 称解雇 Altman 是「amateur city」

5 月 11 日 Oakland 联邦法院,Satya Nadella 出庭作证7
  • Musk 从未就 Microsoft 对 OpenAI 的投资提出任何关切
  • Microsoft 已向 OpenAI 累计投资 $130 亿+,持有约 27% 股权(当前估值约 $1350 亿)
  • 他形容董事会解雇 Altman 的操作:「It was sort of amateur city, as far as I'm concerned.」7
Ilya Sutskever 随后出庭,确认曾向董事会表达关切:「I simply cared for it, and I didn't want it to be destroyed.」7
庭审本身对 Agent 生态的直接影响有限,但 $8500 亿+ 估值的 OpenAI 的治理结构正在公开透明地被解剖,对有长期合作意向的企业客户而言,这是背景信息。Sam Altman 预计 5 月 12 日出庭。

二、开源框架:SK 安全加固,LangChain 冲破 1.0

Semantic Kernel dotnet-1.76.0:安全加固集中发布

5 月 11 日 09:37 UTC,Microsoft Semantic Kernel 发布 dotnet-1.76.08。本版核心变更集中在安全层:
  • CloudDrivePlugin 新增 AllowedUploadDirectories 拒绝式默认机制——未配置时禁止所有上传
  • OpenAPI 插件和 gRPC 插件均加强输入验证和地址处理硬化
  • DocumentPlugin 修复路径验证顺序问题
  • Snappier 组件升级至 1.3.1,修复高危漏洞 GHSA-pggp-6c3x-2xmx
  • 新增 ImageContent 在工具/函数结果中的支持8
结合上期报道的 Semantic Kernel CVSS 9.9 双 RCE 事件,连续两个版本周期里 SK 都在集中补安全债。AllowedUploadDirectories 的拒绝式默认设计是一个值得注意的设计决策转向:不再靠开发者记得「配置权限白名单」,而是默认拒绝、要求显式开放。这是 Agent 框架安全设计从「信任配置」到「默认拒绝」的典型转变9

LangChain langchain-core 1.4.0:0.3.86 直接跳到 1.4.0

5 月 12 日 02:42 CST(窗口边界外 42 分钟),langchain-core 发布 1.4.0,版本号从 0.3.86 直接跳跃,标记为 Latest release10
这是 v1.4 分支合并入 master 的里程碑版本(PR #37350)。主要变更:
  • content-block-centric streaming v2(beta):新的流式传输协议
  • load() 函数增加对不可信 manifest 的安全加固
  • SSRF 防护私有方法硬化,恢复云 metadata IP 和 link-local 范围拦截
  • 聊天模型和 LLM 调用参数新增 traceable metadata 支持
  • 修复 CVE-2026-4539(pygments ≥ 2.20.0 跨包要求)10
版本号从 0.x 到 1.x 不只是数字象征——这条主线有 breaking change 风险。如果你的项目锁定了 langchain-core==0.3.x,1.4.0 的依赖图变化需要在 CI 里跑一遍。窗口外 42 分钟的时效边界,今日即可纳入下轮周期11

Hermes Agent:OpenRouter 291B tokens/周,GitHub 日增 2,065★

Hermes Agent(NousResearch)在 OpenRouter 全球排名 #1,编程类 Agent #1,291B tokens/周,全平台累计 6.61T,本周增长 +8%12。GitHub Trending 上 144,954★,日增 +2,065——AI Agent 相关仓库中最高13
上期(5/11)采集时 Hermes 处于 OpenRouter 全球日榜 #1,当时日 token 量超 OpenClaw。本期按周计 291B tokens,OpenClaw 211B tokens,Hermes 领先约 38%,差距仍在扩大。
Hermes 的最新正式版仍为 v0.13.0 Tenacity(2026-05-07),5 月 11 日创建的 desktop-pr20059-installers 是 CI 构建标签(主题润色用),非功能版本14。桌面版主题迭代说明 Nous Research 有意增强客户端体验,但核心能力路线没有新信号。

LangGraph:连续第 9 轮无 RC;LangGraph CLI 0.4.26 小更新

LangGraph 核心版本仍停在 v1.2.0a7(2026-05-04),连续第 9 轮 RC 缺席15。alpha 阶段已超过 30 天。LangGraph CLI 发布了 0.4.26,新增对 prerelease api_versions 的支持,urllib3 2.6.3 → 2.7.016
CLI 工具在动,核心版本没动。v1.2.0a6 release notes 里详述的 DeltaChannel、per-node timeouts、error handlers、graceful shutdown、v3 streaming API 等功能,当前只能通过 alpha 版使用。对把 LangGraph 用在 production 的团队来说,RC 的缺席意味着需要自己评估 alpha 的稳定性风险。

三、工具链:知识引擎、编码 Agent 集成、可观测性

Pinecone Nexus:向量数据库升级为「知识引擎」

Pinecone 在 5 月 4-7 日 Launch Week 发布 Nexus,定位从向量数据库升级为知识引擎,声称将 Agent 任务完成率从 50-60% 提升至 90%+,token 消耗减少 90%,完成速度提升 30 倍17
核心组件:Context Compiler(上下文编译器)+ Composable Retriever(可组合检索器)。同步发布 KnowQL 声明式查询语言,6 个核心原语:intent、filter、provenance、output shape、confidence、budget。
Harrison Chase(LangChain CEO)的评价:「Building reliable, long-horizon agents is fundamentally a context engineering problem.」17 Jerry Liu(LlamaIndex CEO)称 2026 年的 Agent 瓶颈不在模型而在「基于正确知识工作」。
Pinecone 披露的性能数字来自内部基准,未经独立验证。90% 的 token 减少如果成立,对依赖高频检索的 Agent 系统成本影响非常显著——但「任务完成率 90%+」这个数字的测试条件(任务类型、复杂度、数据集质量)没有公开说明。KnowQL 的标准化意图值得关注:向量数据库领域还没有等效于 SQL 的查询接口,如果 KnowQL 被生态接受,Pinecone 在知识层的话语权会比「最快的向量库」强得多18

Cursor:Teams 集成 Microsoft Teams,Bugbot 三档精度

5 月 11 日,Cursor 发布两项生产级更新19
  • Microsoft Teams 集成:在 Teams 频道中 @Cursor,可委派任务给 cloud agent 或提取信息,自动选择仓库和模型
  • Bugbot 分级:PR 审查支持三档:Default(0.7 bugs/次)、High(0.95 bugs/次,更慢更贵)、Custom(自然语言描述动态切换)
Cursor 3.3(5/7)已推出并行 Agent 执行计划和 PR 拆分能力,本次 Teams 集成是在此基础上增加了异步任务委派入口。0.95 vs 0.7 bugs/次的差距不大,但对需要 PR 门禁高标准的金融/医疗类项目,这个杠杆可能值得配置19

CopilotKit $27M A 轮:AG-UI 协议正在成为标准

5 月 5 日,CopilotKit 完成 $27M Series A,由 Glilot Capital、NFX、SignalFire 领投,定位 Enterprise Agentic Frontend Stack20
CopilotKit 是 AG-UI 协议的主要推动者。近期生态采用进展:AWS AgentCore 集成 AG-UI 端点、Oracle Agent Spec 采用 AG-UI、Google A2UI v0.9 发布、Microsoft Agent Framework 兼容 AG-UI。
当云厂商把一个开源协议纳入自己的框架,协议的生命周期就不再完全由发起方掌控。AG-UI 现在是否已到足够稳定、适合在生产系统里锁定的阶段,是技术选型时要评估的问题20

LangFuse:Enterprise SSO + GitHub Actions 实验 CI/CD

5 月 8 日:Self-Service Enterprise SSO——组织管理员可直接在 LangFuse Cloud 验证域名并配置企业 SSO21
5 月 5 日:Experiments CI/CD 集成——支持在 GitHub Actions 中运行 LangFuse 实验,在发布变更到生产前捕获质量回归21
Enterprise SSO 和 CI/CD 集成放在一起,说明 LangFuse 在往「生产可信」方向走:不只是开发期的可观测性工具,而是进入审批流程和合规检查视野。

GitHub Copilot:5 天弃用 5 个模型

5/1 弃用 GPT-5.2 和 GPT-5.2-Codex,5/7 弃用 GPT-4.1 和 Claude Sonnet 4,5/8 弃用 Grok Code Fast 122。五天内五个模型,密度前所未有。
Grok Code Fast 1 的生命周期最短,约一周即宣布弃用,暗示 xAI 与 GitHub Copilot 的合作关系发生变化。模型迭代速度本身也在告诉开发者:任何「当前最佳模型」的假设都有快速失效的风险,工具链选型时值得把模型可替换性列为必要条件22

Thinking Machines Interaction Models:把交互能力内建进模型

Thinking Machines 于 5 月 11 日发布 Interaction Models 研究预览(HN 93 pt)23,核心主张:把交互能力内建于模型本身,而非套在外部 harness 上。
架构:实时 Interaction Model(200ms 微轮次)+ 异步 Background Model 双模型系统。支持语音/视觉打断、同时语音(如实时翻译)、时间感知、同步工具调用/搜索/生成 UI。Thinking Machines 团队的表达:「For interactivity to scale with intelligence, it must be part of the model itself.」23
当前仍是研究预览,HN 93pt 说明开发者关注度不低。turn-based 模型的根本限制(模型在生成、用户在等)是一个真实的交互摩擦点,「内建交互」vs「外部 harness」的路线选择对语音 Agent 的开发者来说需要跟踪。

Skill 验证器浪潮:react-doctor 与 agentmemory 同日上榜

本期 GitHub Trending 中出现明显的「验证器」模式13
项目星数日增定位
millionco/react-doctor8,103★+212检测 AI agent 写的糟糕 React 代码,支持 50+ agent
rohitg00/agentmemory4,805★+430持久化存储,LongMemEval 95.2% 检索准确率,92% token 节省
CloakHQ/CloakBrowser6,271★+1,320可绕过 bot 检测的隐身 Chromium,Playwright 即时替代
bytedance/UI-TARS-desktop33,049★+956留存
decolua/9router8,404★+941留存,v0.4.29
AgentConn 把这个模式归纳为24:Skill 生态在两天内走完「skill packs → marketplaces → validators → benchmark-backed primitives」的演进。react-doctor 的 README tagline 直接写:「Your agent writes bad React. This catches it.」——假设被审查的代码是 AI 生成的,不是人类写的。
验证器出现说明 AI 写代码的覆盖度已足够高,下游的质量管控需求已能独立支撑一类项目热度。上期在榜的 everything-claude-code(178k→)、GenericAgent(10.6k→)、agent-skills(38.5k→)本轮均跌出,71% 的更替率说明 Trending 快照本身的信噪比不高13

r/AI_Agents 「停止造 Agent」热帖:可靠性 > 自主性

帖子标题「Stop building AI agents」(u/Warm-Reaction-456),40+ 项目经验总结25
「The pattern is so consistent now I can predict the call before it starts.」
案例:Telehealth founder 只需 workflow routing(省 4h/天);Fintech 只需 ACH reconciliation 脚本(自动化银行转账对账,省 1 个全职 ops);Medspa 只需 no-show 检测(+14% 收入)——三个案例里没有一个「Agent」,但都交付了商业价值。
评论区的核心争议集中在两句话25
「The biggest lie in AI agents right now is that more autonomy automatically means more value.」(u/The_Default_Guyxxo)
「Most AI agent failures are organizational design failures, not model failures.」(u/WiStone213)
后一句的含义更深:Agent 系统在组织里失败,不是因为模型不够好,而是因为没有人定义谁拥有任务、谁对输出负责、何时需要人工审查。这和 Gartner「零治理」失败模式直接对应。
u/The_Default_Guyxxo 的结论是:「the future isn't fully autonomous agents — it's highly constrained agents operating inside well-designed systems」。自主性越高,每个错误越贵。最好的系统在不确定时停止、不确定时升级、不确定时验证——几乎不「自主」。这个视角对正在做技术选型的团队有直接参考价值25

GitLab Act 2 重组:AI 经济学能撑住 Agent 扩张假设吗

5 月 11 日,GitLab 宣布 Act 2 重组:裁减 30% 小团队国家、扁平化管理(最多移除 3 层)、R&D 重组为约 60 个小团队,废止 CREDIT 价值观框架26。GitLab 股价从一年前约 $52 跌至当前约 $26。
Simon Willison 分析了公告,指出 GitLab 的核心论述是「the agentic era multiplies demand for software」,同时承认自己对这个 Jevons Paradox 式的乐观预期有既得利益(股价腰斩可能反映市场的不同判断)26
James Shore 从另一角度给了更刺的一句:「You write code twice as quick now? Better hope you've halved your maintenance costs. You're trading a temporary speed boost for permanent indenture.」26 如果 AI 让代码产出速度翻倍但维护成本不降,总成本可能上升而非下降——这个逻辑对选择 AI 辅助编码工具时的 ROI 计算有直接影响。

值得追踪

  1. Google I/O 2026(5/19):今日(5/12)Android Show: I/O Edition 10AM PT 举行,为一周后的 Google I/O 预热。Gemini 已在部分用户 App 内意外现身(Gemini Omni 命名)27。关注 Gemini 在 OS 层的 agentic 集成深度——这是本周最大的 Agent 生态信息密度节点。
  2. LangGraph v1.2.0 RC:连续第 9 轮缺席。alpha 已满 30 天。v1.2.0a6 中的 DeltaChannel、per-node timeouts、v3 streaming API 等功能没有 RC 就无法在生产系统里使用。第 10 轮是否继续缺席,会影响 LangGraph 用户的迁移计划15
  3. langchain-core 1.4.0 兼容性:0.3.86 → 1.4.0 是版本号跨越,已有项目需要跑 CI 确认依赖兼容性。SSRF 防护加固是安全需求,但也意味着原来依赖 link-local 地址的私有部署可能被拦截10
  4. DeployCo 与传统咨询伙伴关系:OpenAI 同时把 Bain、McKinsey、Capgemini 列为「咨询伙伴」和潜在竞争对手,这个关系的边界管理是未来 6-12 个月值得盯的企业动态1
  5. AI 攻击工具链的后续披露:Google 这次没有披露被利用的 AI 模型,也没有披露被攻击系统的技术细节。这类披露通常伴随 CVE 公告和修复指南。关注 Google Project Zero 和相关厂商的安全公告,以及 AI 生成攻击路径在其他安全报告中的首次出现4

封面图:图片来自 Pixabay(tungnguyen0905,免版权)

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。