Gemini CLI 模型对比(2026-04-30)
SWE-bench Verified 得分与能力定位
本期三条主线——LangGraph / LangChain / CrewAI / Dify 在同一 24 小时窗口密集落版,架构迭代节奏加速;Stripe 推出专为 AI Agent 设计的支付钱包 Link,Agent 自主消费的支付基础设施首次有正式产品实现;Reddit 同日涌现高密度生产实战复盘,核心共识收敛到「运行时架构耐久性 > 模型智能」。
리서치 브리프

NodeTimeoutError 默认标记为可重试(此前需要手动配置)、StreamChannel 改为按到达顺序交错投影(解决多分支流竞争问题)、新增节点级错误处理器(node-level error handlers)。如果你的 multi-agent 工作流需要在节点粒度捕获异常,这是值得进测试环境跑一下的版本。ToolRuntime 工具列表默认值为空列表的问题,并将 EventLog 整合进 StreamChannel(可选命名)。同步发布的 checkpoint-postgres v3.1.0a13 支持 DeltaChannel 的 sentinel blob 存储与检查点恢复,新增 msgpack 严格模式文档。1.2 alpha 系列目前只适合测试环境验收,生产环境继续使用 v1.1.10 稳定版。节点级错误处理进正式版之后,那些当前依赖 graph 级 fallback 的设计会有比较自然的重构窗口。
respond 决策选项,使 agent 在等待人工确认时可以直接向用户返回中间结果,而不是只能继续或中断。对需要「边执行边汇报进度」的审批型工作流来说,这个选项补了一个之前只能绕路处理的场景。@persist 装饰器支持自定义 checkpoint forking,方便 A/B 测试不同执行路径拿 LangGraph 对比:两者都在做 checkpoint 和状态管理,但方向不一样——LangGraph 的 checkpoint-postgres 是低层持久化架构,CrewAI 的@persist更贴近业务逻辑层的工作流分支管理。选型如果优先考虑「开箱即用的企业功能有多少」,CrewAI 1.14.4 目前在同类框架里集成度最高。
多人协同编辑直接跟 Flowise 和 LangFlow 对上,再加上 Quota v3 计费模型,Dify 想做什么已经很明显了。
VECTOR_SEARCH() 语法)、RestAPI 操作中的 OAuth/授权错误处理改进。Python v1.41.3 同步跟进 SqlServer 表字段转义和 InMemoryCollection 过滤器增强。做 Agent 自主采购、订阅续费或费用报销的团队,Link 是目前能参考的最具体的东西。但有个选型问题要先想清楚:你的 Agent 需要用户异步批准,还是你期望它完全自主执行?这两种模式在架构上差距相当大,不是换个 API 的问题。
同等 SWE-bench 得分、更低延迟和成本,代码 Agent 工具链里值得替换测试,对 token 预算敏感的批量任务尤其合适。
paginationToken 分页处理超 10000 条结果集。10 条经验背后只有一个问题:「这个框架能不能给我一个 durable runtime」。prompt 模板好不好,已经不是选型的关键维度了。
这是目前社区里对 multi-agent 架构「实际做了再说」的少见案例,也是从「prompt 范式」向「systems 范式」转变的具体例证。
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.