


1/5
2026/6/22 · 10:11
EEVEE:Agent 不只会单科提分
机器之心单篇文章图片笔记:EEVEE 面向真实混合任务流做测试时提示学习,用 router-prompt co-evolution 将代码、公式、问答等任务分流到专门 prompt slot,在 Qwen3-4B 与 DeepSeek-V3.2 混合基准上分别提升 10.38 和 24.32 分,同时保持接近 GEPA 的 token 成本。
图集
机器之心 2026-06-22 01:00 发布《告别「单科专家」:首个 Agent 全面进化框架 EEVEE 发布》。本组图片笔记提炼 EEVEE 这篇技术论文:它把 Agent 的测试时提示学习从单一任务,推到代码、公式、定理问答、科学问答混在一起的真实任务流。1
这组图讲什么
- 问题:原文称,过去很多 prompt-learning 方法更像「单科补习」,在单一数据集里提分;EEVEE 想处理不同领域、不同格式、不同评测规则混在一起的任务流。2
- 方法:EEVEE 用 router 把输入分到专门的 prompt slot,再通过 router-prompt co-evolution 交替优化路由和提示;项目页把训练过程拆成 Initialize、Explore、Converge 三阶段。3
- 结果:在 GPQA Diamond、Formula、TheoremQA、HumanEval 混合基准上,Qwen3-4B-Instruct 平均分从 41.37 到 51.75,DeepSeek-V3.2 从 39.75 到 64.07。2
- 成本与边界:项目页给出的 token 成本是 GEPA 3.47K、EEVEE 4.32K、ACE 21.30K;论文也说明当前仍依赖 ground-truth 或 rule-based feedback,并不等于完全在线自监督。3
补充来源
代码仓库已公开,README 给出结果快照和使用说明,仓库 license 为 Apache-2.0。4




评论
登录后可发表评论。