
AI 全景情报 0621:Agent 基建上云,Codex 录工作流,端侧 NPC 开始落地
本期聚焦 AWS、Google Cloud、OpenAI Codex、NVIDIA ACE 与 Genspark 五条信号:Agent 竞争正从模型能力外溢到托管运行控制面、工具治理、可复用 skill、端侧执行栈和企业工作空间入口。文章重点判断,未来 1-2 个季度的机会会围绕 Agent 控制面和流程资产,而不是单一聊天应用。
リサーチノート
本期判断:过去 24 小时最值得 AI 从业者盯住的不是某个单点模型刷榜,而是 Agent 的生产化拼图继续补齐。AWS 把搜索、运行时、隔离、记忆、工具网关和观测封进 Bedrock AgentCore;Google Cloud 把 MCP、Apigee 和多租户架构放到企业治理语境里;OpenAI Codex 开始把人的桌面操作录成可复用 skill;NVIDIA 则把 Agent 推进低延迟端侧游戏与 XR 场景。资本市场同步给 Genspark 的「AI 工作空间 + 企业自有数据 Agent」定价。换句话说,AI 竞争的主战场正在从「谁的模型更强」外溢到「谁能把 Agent 安全、便宜、可观测地塞进真实流程」。
本期速览
| 信号 | 发生了什么 | 对 AI 从业者意味着什么 | 观察点 |
|---|---|---|---|
| AWS AgentCore 补齐搜索与运行层 | Web Search on Amazon Bedrock AgentCore GA,AgentCore harness 也宣布 GA;前者提供 MCP-compatible 托管网页搜索,后者用 CreateHarness / InvokeHarness 两个 API 把 Runtime、Memory、Gateway、Browser、Identity、Observability 等封装成生产 Agent 运行面。12 | 企业 Agent 的采购清单从「模型 + RAG」升级为「搜索新鲜度、工具治理、隔离执行、可观测、记忆和身份」一整套运行控制面。 | AWS 能否把 Bedrock、第三方模型和 MCP 工具接成默认企业 Agent 底座。 |
| Google Cloud 强调 Agent 治理与 MCP 接入 | Google Cloud 6 月 15-19 日更新中集中出现多租户 agentic AI reference architecture、Gemini Enterprise MCP Connector、自定义 MCP server 配置,以及用 Apigee 作为 centralized tools management solution 来管控 agent access。3 | Agent 平台正在进入 API 网关和企业架构团队的责任范围,而不只是 AI 团队的试验项目。 | Apigee / API Gateway 类产品是否会成为企业 Agent 的「工具防火墙」。 |
| OpenAI Codex 把桌面流程录成 skill | OpenAI Codex 的 Record & Replay 页面说明,用户可在 macOS 上演示一次流程,Codex 会生成可复用 skill;官方示例包括报销、订车位、创建 issue、发布视频、下载周期报告等。4 | 白领自动化开始从写 prompt 过渡到「把 SOP 示范给 Agent 看」,个人流程知识可能沉淀成企业内 skill 库。 | 录屏式 skill 如何处理权限、隐私、审计,以及是否会从个人效率工具升级成团队流程资产。 |
| NVIDIA ACE 把 Agent 推到端侧游戏 NPC | NVIDIA 6 月 16 日发布 ACE Game Agent SDK Beta 与 Unreal Engine 5 插件,覆盖 ASR、小语言模型、TTS;SDK 提供 Agent、Chat、RAG API,并强调本地 RTX 优化、低延迟和可在游戏世界中感知、推理、行动。5 | 端侧 Agent 的首批高价值场景可能不是手机助手,而是低延迟、强沉浸、可付费的游戏与 3D 内容生产。 | 小模型、RAG、语音和动作生成能否在 RTX 本地形成可复制的开发者栈。 |
| Genspark 融资给「AI 工作空间」继续加码 | Citybiz 报道称,Genspark.ai 获得 1 亿美元 Series B extension,Series B 总额达 4.85 亿美元,post-money valuation 从 3 月的 16 亿美元升至 26 亿美元;公司同时推出 AgentBase,用企业自有数据创建定制数据库、dashboard 和内部系统。6 | 投资人仍在押注「AI workspace 不是文档生成器,而是新一代业务系统入口」。但收入和 ARR 口径来自公司披露,需保留自述属性。 | AI 工作空间能否从个人生产力迁移到企业系统替代,尤其是能否真正接管 CRM、HR、项目、库存等高摩擦流程。 |
1. AWS 的信号:企业 Agent 进入「托管运行控制面」阶段
AWS 本周的两个动作放在一起看,比单独看更重要。Web Search on Amazon Bedrock AgentCore 已 GA,AWS 将其描述为一个 fully managed、MCP-compatible 的网页搜索能力,可作为 managed target 或 connector 接入 AgentCore Gateway;代理通过标准
tools/list 发现工具并调用,背后是 Amazon 自营的网页索引,覆盖数百亿文档,并声称新内容可在数分钟内反映,查询不离开 AWS。1同时,AgentCore harness GA 把生产 Agent 周边的脏活继续向上封装:用 CreateHarness 定义 Agent、InvokeHarness 运行 Agent,运行环境自带隔离文件系统和 shell,可接 Runtime、Memory、Gateway、Browser、Identity、Observability,支持跨 session memory、skills、网页浏览、MCP/tools、模型供应商切换和 CloudWatch tracing。2

这对从业者的决策含义很直接:如果你在企业里做 Agent,2026 年下半年不能再只比较模型价格和 benchmark。真正会卡住上线的是搜索新鲜度、数据出境、工具权限、执行隔离、记忆生命周期、审计追踪和失败回放。AWS 正试图把这些都纳入 Bedrock 的标准采购项,让企业不必在 LangGraph、MCP server、浏览器沙箱、搜索 API、日志系统之间自己拼胶水。
值得注意的是,AWS 的 Web Search 定价为每 1,000 次查询 7 美元,并且目前文中说明可在 us-east-1 访问。1 这意味着它短期更像高价值企业 Agent 的合规搜索能力,而不是面向大规模低成本消费者问答的默认方案。对云架构团队来说,下一步要测的不只是答案质量,还包括每个任务平均搜索调用次数、缓存策略、失败降级和日志合规边界。
2. Google Cloud 的信号:MCP 正在被 API 网关团队接管
Google Cloud 的最新更新没有一个单独的大标题,但组合起来是同一个方向:企业 Agent 的核心问题正在从「能不能调用工具」变成「谁授权 Agent 调用哪些工具」。在 6 月 15-19 日更新中,Google Cloud 提到多租户 agentic AI reference architecture,用于在不同业务单元之间建立集中平台,降低碎片化和数据暴露风险;同时提到 Gemini Enterprise MCP Connector,以及如何把 Gemini Enterprise 连接到自定义 MCP server。3
更关键的是 Apigee 的位置。Google Cloud 在同一更新里把 Apigee 描述为 centralized tools management solution,用来 govern agent access;更早的同页记录也提到 Apigee MCP GA,可把企业 API 暴露成 Agentic AI 应用的 MCP tools,并通过 managed endpoints 和 API hub 语义搜索提供安全、受治理的企业数据访问。3
这对产品和平台团队的含义是:Agent 项目会越来越难绕过现有 API 治理体系。过去很多 PoC 是「给模型一组 tool schema,看能不能跑通」。进入生产后,企业会问:Agent 能不能调用退款接口?能不能查 HR 数据?能不能跨租户读取客户上下文?能不能为每次工具调用留下可审计证据?这些问题原本属于 API Gateway、IAM、数据治理和合规团队。Google Cloud 把 MCP 和 Apigee 放在一起,说明云厂商已经在把 Agent tool calling 包装成一套企业控制平面。
短期机会在两类产品:一类是把已有企业 API 快速转成 MCP 工具,并自动生成权限、限流、审计和语义描述;另一类是给多 Agent、多租户场景做策略模拟和红队测试。真正的壁垒不是做一个 MCP server,而是把 MCP server 放进企业权限系统后仍然好用。
3. OpenAI Codex 的信号:工作流知识开始从 prompt 变成 skill
OpenAI Codex 的 Record & Replay 官方页面没有给出发布日期,但页面本身清楚说明了能力边界:用户在 macOS 上示范一次流程,Codex 观察动作与窗口内容,随后生成一个可复用 skill;这个 skill 会说明何时使用、需要哪些输入、执行哪些步骤,以及如何验证结果。官方列出的适用例子包括 filing an expense、booking a parking space、creating a correctly configured issue、publishing a video、downloading a recurring report。4

这条信号的重要性不在「录屏自动化」本身,而在流程资产的抽象方式变了。过去企业自动化通常有两条路:要么让员工写 SOP,再由 RPA / 工程团队实现;要么让员工每次用自然语言告诉 AI 怎么做。Record & Replay 代表第三条路:让员工完成一次真实操作,Agent 把这段操作压缩成可复用 skill,以后用变量输入复跑。
对 AI 产品经理来说,这会抬高「个人记忆 + 工具使用 + 流程复用」的重要性。一个 Agent 如果只会在当前会话里帮忙,不会把稳定流程沉淀成 skill,很快会变成一次性助手;反过来,如果每个员工都能把报销、发布、归档、创建工单等动作录成 skill,企业内部会自然形成一套由业务人员维护的自动化库。
风险也明显。官方页面说明 Record & Replay 依赖 Computer Use,并提醒录制时避免 secrets 和敏感数据;当前可用性还排除了欧洲经济区、英国和瑞士。4 这提示企业不要把它当作无脑铺开的效率功能,而要先设计权限隔离、录制审查、敏感字段遮蔽和 skill 发布流程。
4. NVIDIA 的信号:端侧 Agent 的商业落点先出现在游戏
NVIDIA 6 月 16 日发布的 ACE Game Agent SDK Beta 和 Unreal Engine 5 插件,是端侧 Agent 的一个清晰样本。SDK 是轻量级、开源、可定制的 C/C++ agentic framework,面向原生游戏集成,提供 Agent API、Chat API 和 RAG API;新 UE5 插件覆盖 ASR、小语言模型和 TTS,包含 ready-to-use English ASR model、Qwen 3.5 4B、本地 GGUF 支持和 Chatterbox Turbo 350M TTS。5

这条线索对 AI 应用生态很关键,因为它提醒我们:端侧 Agent 的第一批付费场景不一定是手机上的通用助手。游戏和 3D 内容有三个优势:低延迟是真需求,沉浸感提升容易被用户感知,开发者也有为 RTX 本地算力和插件生态付费的动机。NVIDIA 文中举例称,KRAFTON 的 PUBG Ally 使用自然语音理解玩家意图、解释游戏场景并动态响应;Total War: PHARAOH 的实验性 AI advisor 则通过 RAG 查询 1,200 多个相互关联的游戏数据表,回答玩家策略问题。5
对从业者的启发是:端侧 Agent 不应简单等同于「把大模型塞进设备」。可落地的端侧 Agent 往往是小模型、RAG、语音、状态机、动作系统和内容工具链的组合。谁能把这些组合压成开发者可用的 SDK,谁就可能拿到新一代应用入口。
5. Genspark 的信号:AI workspace 仍在争夺「业务系统入口」
Genspark 的融资消息来自 Citybiz 报道,需按公司披露口径看待:Genspark.ai 获得 1 亿美元 Series B extension,Series B 总额增至 4.85 亿美元,post-money valuation 从 3 月的 16 亿美元升至 26 亿美元;公司称 2026 年一季度新增约 1.5 亿美元 ARR,加上 2025 年 4 月上线以来已有的 1 亿美元 ARR,首年从零增长到 2.5 亿美元 ARR。6
比估值更值得看的是 AgentBase。报道称,AgentBase 允许组织用企业自有数据创建定制数据库、dashboard 和内部系统,覆盖 CRM、HR、项目管理、库存管理和营销 workflow 等场景。6 这其实是在和传统 SaaS 争同一个入口:用户不是打开一个工具生成文档,而是把数据、流程和执行都放到 AI workspace 里。
对投资人和创业者来说,这条信号的判断标准不是「AI workspace 能不能再涨估值」,而是它能否吃掉垂直业务系统的预算。若 AgentBase 类产品只能生成 dashboard 和表单,它会被 BI、低代码和协作文档夹击;若它能稳定连接权限、数据、审批和执行,就会变成企业内部流程的轻量替代层。下半年值得跟踪的是续费率、企业客户净扩张、实际替换了哪些系统,以及 Agent 执行出错时的责任边界。
趋势预判:下一轮风口会围绕「Agent 控制面」而不是单一 Agent 应用
本期五条信号指向同一个结论:Agent 正从 demo 进入基础设施竞争。AWS 把运行、搜索和观测托管化;Google Cloud 把 MCP 放进 API 治理;OpenAI 把个人流程录成 skill;NVIDIA 把端侧 Agent 接进游戏开发栈;Genspark 把 AI workspace 包装成业务系统入口。
未来 1-2 个季度,AI 从业者可以重点看三条线:
- Agent tool gateway:MCP server 数量会继续增加,但真正值钱的是授权、审计、限流、语义注册、风险评估和回滚;AWS 的 AgentCore Gateway 与 Google Cloud 的 Apigee / MCP 更新已经把这个方向摆上企业采购桌。13
- Skill / workflow asset:从 prompt 模板进化到可复用 skill,企业内部会出现「流程资产管理」需求,包括版本、审批、敏感数据和复用统计;Codex Record & Replay 已把「演示一次流程再复用」写进官方产品文档。4
- 端侧垂直 Agent:游戏、设计、工业仿真、XR、车载等低延迟场景会比通用手机助手更早跑出付费闭环;NVIDIA ACE 的 UE5 插件路线已经给出一个端侧样板。5
今天的结论不是「Agent 已经成熟」,而是它正在被云厂商、开发者工具、GPU 生态和 AI workspace 公司拆成可采购、可治理、可复用的零部件。对团队而言,机会不只在做一个更聪明的 Agent,更在于做它上线后必须依赖的控制面、流程库和端侧执行栈。
参考ソース
- 1Introducing Web Search on Amazon Bedrock AgentCore
- 2Amazon Bedrock AgentCore harness is now generally available
- 3What’s new with Google Cloud
- 4Record & Replay – Codex
- 5Build On-Device AI Companions with the NVIDIA ACE Game Agent SDK and Unreal Engine 5 Plugins
- 6Genspark Extends Series B to $485 Million, Reaches $2.6 Billion Valuation

このコンテンツについて、さらに観点や背景を補足しましょう。