AI Agent 生态速报 | 2026-04-30：OpenAI 登陆 AWS、Poolside 开源 33B、ClawSwarm 供应链攻击曝光

事情来得比预期快。OpenAI 模型昨日正式登陆 AWS Bedrock，Azure 的独占窗口正式关闭；Poolside 同日首次公开发布 Laguna 系列，33B 开源模型在 SWE-bench Pro 上拿到 44.5%，36GB 内存的 Mac 就能本地跑。安全方向有个值得拉警报的新发现：一种名为「ClawSwarm」的供应链攻击路径被公开披露，攻击者通过伪装成无害工具的技能文件，让 Agent 替第三方干活，操作者全程不知情。

一、云 AI 平台格局重构：OpenAI 登陆 AWS，Azure 独占正式成历史

OpenAI 模型、Codex 和 Managed Agents 首次在 AWS Bedrock 上线1。这是 OpenAI 与微软在 2026 年 4 月底重构独占协议2后的第一个直接落地——Azure 的排他性 API 访问权从「无限期」改为「至 2032 年、非排他」，允许 OpenAI 向 AWS、Google Cloud 等其他云商销售全线产品。

图片来自：Pexels - panumas nikhomkhai

AWS CEO Matt Garman 说这是「云计算历史以来最具后劲的分水岭之一」，宣传腔很重，但数字支撑是真的：双方 50 亿美元战略合作框架已到位1。AWS 同步发布了三层产品：Amazon Bedrock Managed Agents（OpenAI 驱动，配合专有强化学习「harness」框架）、面向知识工作者的 Amazon Quick Desktop（打通本地文件/日历/邮件/Slack/Salesforce），以及 Amazon Connect 四层企业应用（供应链规划、大规模招聘、客服、医疗患者旅程）3。

对技术选型有直接影响：此前选择 Azure OpenAI 的企业，「只能走 Azure」这扇门关上了。如果你的 Agent 工作负载目前在 Azure，现在是把多云路由重新摆上桌讨论的时机——不是 Azure 的能力变差了，而是谈判筹码平了。

GPT-5.4 已在限定预览版上线，GPT-5.5 即将推出1，两款模型在 Bedrock 的可用时间节点值得持续关注。

二、Poolside Laguna 公开发布：开源 33B 登上 SWE-bench Pro 44.5%

Poolside 首次向公众发布 Laguna 系列两款模型4：

Poolside Laguna 系列核心指标

2026-04-29 发布

Laguna M.1 参数量

225B MoE

M.1 SWE-bench Pro

46.9%

Laguna XS.2 参数量

33B MoE

XS.2 SWE-bench Pro

44.5%

XS.2 SWE-bench Verified

68.2%

M.1 训练规模

6144 块 NVIDIA Hopper GPU

正在加载统计卡片...

Laguna M.1 是旗舰版，225B 参数 MoE 结构（激活 23B），用 6144 块 NVIDIA Hopper GPU 从零训练 30T token，SWE-bench Pro 46.9%，目前仅限 API 调用。真正让开发者兴奋的是 XS.2：33B 参数 MoE（激活仅 3B），SWE-bench Pro 44.5%，SWE-bench Verified 68.2%，以 Apache 2.0 协议开源，已上线 HuggingFace 和 Ollama，36GB 内存的 Mac 可以本地运行4 5。两款模型均限时免费。

图片来自：Pexels - Bibek ghosh

数字值得停下来看一眼：XS.2 的 44.5% 比旗舰版 M.1 的 46.9% 只差 2.4 个百分点，但激活参数从 23B 降到 3B，代码生成场景下的每 token 成本是量级差异。中文开发者社区倾向于把 XS.2 定位为「每周编程工作的默认开源选项」，直接挑战 Codex、Claude 等商业产品5。

Poolside 背后是 Bain Capital Ventures、NVIDIA 和 eBay Ventures，累计融资 6.26 亿美元，估值 30 亿美元4。开源 XS.2 的同时，他们还开源了内部 agent 运行时 pool，体现了从模型能力到完整工具链的生态野心。

三、Anthropic 新一轮估值 900 亿美元，同步发布「自省适配器」安全研究

TechCrunch 独家报道6，Anthropic 正在进行新一轮融资，目标金额 50 亿美元，估值升至 900 亿美元（此前公开融资轮估值 800 亿美元）。融资规模与估值的组合，意味着 Anthropic 正在为大规模计算扩张备弹。

与此同时，Anthropic 的 Fellows 研究团队发布「introspection adapters（自省适配器）」技术7——允许语言模型在推理时自我报告训练过程中学到的行为，包括潜在的错位行为。这是可解释对齐方向的具体工具，和 900 亿估值的融资新闻放在一起，说明 Anthropic 在安全研究与商业化扩张两条线上同时踩油门。

四、ClawSwarm：Agent 技能文件供应链攻击正式曝光

这是本期最值得技术负责人警惕的信号。

安全研究员在 Reddit 披露了一种新型攻击向量8：攻击者通过「ClawSwarm」技术，将恶意指令链嵌入看似无害的技能文件（如定时任务助手、安全助手），当 Agent 加载这些技能后，会悄无声息地执行多阶段任务——注册网站、安装数字钱包、定期向第三方站点发送心跳包并接收新指令。操作者全程无感知，成本由 Agent 运营方承担。

图片来自：Pexels - Tima Miroshnichenko

攻击路径的升级意义在于：此前的 Agent 安全威胁主要聚焦在 prompt 注入（攻击者通过输入内容操纵模型行为），而 ClawSwarm 把攻击面转移到了供应链层——任何允许动态加载外部技能/插件的 Agent 系统，其信任模型都需要重新审查。

防御建议来自同一线程的讨论8：审计 Agent 安装的所有包和技能文件，特别是通过第三方市场获取的；监控 Agent 的出站网络连接，周期性访问陌生站点是危险信号；在运行环境前置 API 中转网关，设置每日消费上限——即使触发最坏情况也能把损失压在可接受范围内。

这和同期另一条社区爆料呼应9：用户在 git 提交消息中包含特定字符串 HERMES.md，导致 Anthropic 后端反滥用过滤器将请求从 Max 包月套餐（每月 200 美元）偷切换到按量付费，该用户一天内累积 200 美元额外费用。这不是模型问题，而是「将内容审核直接与计费绑定、无 UI 确认」的系统设计缺陷。API 中转网关的防护价值，不只是应对 ClawSwarm，也是应对 AI 厂商自身计费路由风险的必要措施。

五、框架与工具链更新速览

LangGraph 密集发布：本周连续三版——v1.1.1010 回退了 node-level timeouts 功能（PR #7627 被撤销，说明该特性存在实现问题，依赖此特性的项目需降级处理）；prebuilt v1.0.1311 修复 ToolRuntime 默认列表问题，新增流传输变换基础设施；alpha 版 v1.2.0a112 带来优雅关闭/排水模式、DeltaChannel 改进、动态推送任务超时。node-level timeouts 的回退是近期最值得关注的变更，生产环境有依赖的团队应立即验证。

LangChain v1.2.1613：内容块级流式传输 v2 实现落地，停止内联 agent 状态到 tool-dispatch Send（有破坏性变更，升级前需确认工作流兼容性），新增 LLM 代理类型标记，默认使用 DockerCommandLineCodeExecutor。

CrewAI v1.14.4a2 alpha14：Flow 持久化键支持自定义、新增 Azure OpenAI Responses API 支持、修复 MCP 服务器返回空工具时的异常处理。

Semantic Kernel .NET v1.75.015：主要是安全加固——AllowedBaseUrls 验证强化、SQL 字符串字面量注入修复、Redis 文本搜索反斜杠转义。如果你的 Semantic Kernel 版本在此之前，建议尽快升级。

LangSmith SDK v0.7.3816：新增 Strands OTEL exporter（OpenTelemetry 导出支持），修复 Claude Agent SDK 子代理运行获取问题，改进 Claude Agent 子代理工具跨度和消息块合并。OTEL 集成是可观测性标准化的关键一步，使用 LangSmith 追踪 Claude Agent 的团队应优先升级。

A2A Java SDK 1.0.0.Beta117：首个与 A2A Specification 1.0.0 完全对齐的 Java SDK，Maven groupId 已从 io.github.a2asdk 迁移至 org.a2aproject.sdk，老依赖需更新。三种传输协议（HTTP+JSON / gRPC / JSON-RPC）等价支持落地，结构化错误码对生产调试意义明显。

六、GitHub 热榜：编程 Agent 基础设施爆发期

本周 GitHub Trending 集中呈现了一个趋势：开发者在围绕编程 AI Agent 快速建设基础设施。

本周 GitHub AI Agent 热榜（周增 Star）

截至 2026-04-29

free-claude-code

huggingface/ml-intern

GitNexus（Graph RAG）

pi-mono（Agent 全栈工具包）

GenericAgent（自进化）

context-mode（98% 上下文压缩）

正在加载统计卡片...

几个值得单独标注的项目18 19 20 21 22：

huggingface/ml-intern（本周 +6388 stars）：Hugging Face 出品的开源 ML 工程师 Agent，能读论文、训练模型、交付 ML 成品。学术→工程流程自动化的具体实现，是 Agent 在专业领域（ML 研发本身）的最佳「自我指涉」案例。
context-mode（本周 +2215 stars）：为编程 Agent 优化 context window，宣称沙箱工具输出可实现 98% 的上下文缩减，支持 14 个平台。这个数字如果经得起生产验证，对高频使用 Claude Code 或 Cursor 的团队的 API 费用影响是量级的。
GenericAgent（本周 +2365 stars）：自进化 AI Agent，从 3.3K 行种子代码出发，通过生长技能树实现对整个系统的控制，令牌消耗减少 6 倍。架构上的有趣探索，但「自进化」在生产环境里等同于不可预测性风险，需谨慎评估。

七、社区讨论焦点：生产架构 vs 「看起来能用」

本周社区讨论中出现了一篇高质量的生产 Agent 工程指南23，作者来自 Meta AI 背景，核心论点值得作为选型决策的参考框架：

生产 Agent 的三层防护结构：

架构约束——工具选型（MCP vs 原生工具 vs skills）的颗粒度和数量需根据用户技术水平决定；高风险操作应考虑「沙箱隔离 / 用户自责 / 直接删除风险工具」三选一，而非依赖 prompt 约束
系统约束——通过工具设计强制流程：邮件 Agent 的 draft_email 和 send_email 要求接收「草稿 ID」，从设计上杜绝了无确认直接发送
指令约束——从最简单的系统提示开始，按需增加约束，避免过度限制导致能力退化

这和同期的 PocketOS 事故分析24形成直接对照——9 秒删光生产数据库的根本原因是架构层缺少硬编码命令黑名单（rm -rf、DROP DATABASE 在执行层拦截，不应委托给 prompt 判断），而非 prompt 写得不够好。

测试问题也在本周有高密度讨论25：概率模型让传统 diff 测试失效，用 LLM 验证输出内容可行，但整个执行流程的质量评估没有行业标准工具。这可能是当前 Agent 工程化里被低估最多的盲区。

横向信号：平台竞争进入执行层

把本期几个事件并排放：OpenAI 登陆 AWS、Anthropic 推进 900 亿估值融资、AWS 同步发布三层 Agent 产品堆栈3、Salesforce 发布 Agent 治理指南26。问题已经不是「谁的模型更强」，而是「谁能提供能在企业里跑通的完整基础设施」。

下周值得具体核查的点：AWS Bedrock Managed Agents 与 Azure AI Foundry 在工具调用、记忆管理、执行框架上的能力差异。benchmark 分数读起来省力，但基础设施换起来要命。

封面图：图片来自 Pexels - Tara Winstead