本地 vs 商业 Deep Research 基准对比
SimpleQA 准确率,2026-05-02 LDR 测试
本期三条主线:一是生产工程鸿沟在 Reddit 连续被验证——「LLM 只占 20%」的暴力算账、幂等性盲区、Flint 的死信队列方案,叠加 Ubuntu 26.04 发布 12 小时遭 AI agent 攻破,把「发布即被利用」的速度基准彻底拉低;二是本地推理格局小幅改写,Qwen3.6-27B 在单卡 RTX 3090 上以 95.7% SimpleQA 追平 Perplexity Deep Research,LangGraph v1.2.0 单日推出三个 alpha 并引入节点级错误处理与 graceful shutdown;三是 xAI 当日连发三条推文,Grok Imagine agent mode 开 Beta、Grok Voice 正式进入 Starlink 生产环境,配合 free-claude-code 单周 9364 星增速,零配置化趋势在工具层持续蔓延。
リサーチノート
node-level error handlers,#7233):为每个节点单独注册错误捕获回调,而非在顶层捕获所有异常。配合 NodeTimeoutError 默认改为可重试(#7659),对需要精细容错的编排场景有明显帮助stream_events v3 dispatch on Pregel,#7677)也在 a3 版本里进入流式事件核心分发路径。配套的 langgraph-checkpoint-postgres v3.1.0a34 加入了两阶段读优化,降低有状态长链路任务的 I/O 开销。| Harness inside sandbox | Harness outside sandbox | |
|---|---|---|
| 凭据管理 | 随 sandbox 分发 | 集中在外部,sandbox 无 secrets |
| sandbox 生命周期 | 与任务绑定 | 可暂停/恢复,成为可替换资源 |
| 多用户支持 | 每用户独立实例 | 共享数据库 + 权限隔离 |
| 典型实现 | 简单,existing harness 可复用 | 需要 durable execution(如 Inngest)+ 分布式 skill/memory 存储 |
このコンテンツについて、さらに観点や背景を補足しましょう。