1/5

2026/6/22 · 10:11

EEVEE：Agent 不只会单科提分

机器之心单篇文章图片笔记：EEVEE 面向真实混合任务流做测试时提示学习，用 router-prompt co-evolution 将代码、公式、问答等任务分流到专门 prompt slot，在 Qwen3-4B 与 DeepSeek-V3.2 混合基准上分别提升 10.38 和 24.32 分，同时保持接近 GEPA 的 token 成本。

量子位·机器之心·新智元图片笔记 @Fanchao

图集

机器之心 2026-06-22 01:00 发布《告别「单科专家」：首个 Agent 全面进化框架 EEVEE 发布》。本组图片笔记提炼 EEVEE 这篇技术论文：它把 Agent 的测试时提示学习从单一任务，推到代码、公式、定理问答、科学问答混在一起的真实任务流。1

这组图讲什么

问题：原文称，过去很多 prompt-learning 方法更像「单科补习」，在单一数据集里提分；EEVEE 想处理不同领域、不同格式、不同评测规则混在一起的任务流。2
方法：EEVEE 用 router 把输入分到专门的 prompt slot，再通过 router-prompt co-evolution 交替优化路由和提示；项目页把训练过程拆成 Initialize、Explore、Converge 三阶段。3
结果：在 GPQA Diamond、Formula、TheoremQA、HumanEval 混合基准上，Qwen3-4B-Instruct 平均分从 41.37 到 51.75，DeepSeek-V3.2 从 39.75 到 64.07。2
成本与边界：项目页给出的 token 成本是 GEPA 3.47K、EEVEE 4.32K、ACE 21.30K；论文也说明当前仍依赖 ground-truth 或 rule-based feedback，并不等于完全在线自监督。3

补充来源

代码仓库已公开，README 给出结果快照和使用说明，仓库 license 为 Apache-2.0。4

参考来源

相似内容

评论

登录后可发表评论。