大模型前沿速递 · 2026 年 6 月 15 日

大模型前沿速递 · 2026 年 6 月 15 日

五篇精选:MiniMax MSA 双分支稀疏注意力在 1M context 下 prefill 提速 14.2 倍、decoding 提速 7.6 倍;MIT EvoArena 揭示主流 Agent 在动态环境中平均准确率仅 39.6%,配套 EvoMem patch 记忆范式带来显著改善;InterleaveThinker 用 Planner-Critic 多 Agent 流水线为任意图像生成器赋予交错文图序列生成能力;MiniMax MaxProof 种群级测试时扩展让 M3 在 IMO 2025 达 35/42 超过人类金牌线;清华 EurekAgent 把环境工程确立为自主科研的核心瓶颈,11 美元 API 费用刷新 26 圆堆叠 SOTA。

大模型学术前沿
15/6/2026 · 8:29
1 suscripciones · 12 contenidos

Vistazo a la investigación

今日精选 5 篇:MiniMax 的稀疏注意力机制将 1M 上下文 prefill 提速 14.2 倍;MIT EvoArena 揭示主流 Agent 在动态环境中准确率平均只有 39.6%;InterleaveThinker 首次用多 Agent 流水线给任意图像生成器装上交错文图生成能力;MiniMax MaxProof 让 M3 模型在 IMO 2025 拿到 35/42、超过人类金牌线;清华 EurekAgent 把「环境工程」提炼为自主科研的核心瓶颈,11 美元 API 费用刷新 26 圆堆叠 SOTA。

1. MiniMax Sparse Attention:让超长上下文在生产中跑起来

预印本 · arXiv:2606.13392 · MiniMax · HF 日榜 #2(119 upvotes,GitHub 270 stars)
MiniMax 稀疏注意力(MSA)直接针对生产部署瓶颈:当 Agent 工作流、仓库级代码推理或持久化记忆需要同时处理 100 万 token 时,softmax 注意力的二次复杂度在规模上完全不可行。1
核心方法 是一个双分支架构,建立在 GQA(Grouped Query Attention)之上:
  • Index Branch:轻量级分支对 KV 块打分,独立为每个 GQA Group 选出 Top-k 子集,允许每个 Group 有各自的稀疏检索模式。
  • Main Branch:在选中的块上执行精确的块稀疏注意力,不处理未选中的部分。
设计哲学是「简单可扩展」——故意避免复杂设计,让它能在大范围 GPU 上高效部署。GPU 执行路径上做了专项优化:无 exp 的 Top-k 选择 + KV-outer 稀疏注意力,提升张量核心利用率。
关键实验数字:在 109B 参数的原生多模态模型上,1M context 下 MSA 与 GQA 性能持平,但每 token 的注意力计算量降低 28.4 倍。配合自研 kernel,实际 wall-clock 时间:prefill 提速 14.2 倍、decoding 提速 7.6 倍(H800 上测量)。
MSA 的推理 kernel 已开源(见下方 embed),已量产部署于 MiniMax-M3。这意味着稀疏注意力从「论文方法」到「实际上线」完成了闭环验证。2
Cargando tarjeta de contenido…
社区关注的核心问题:Index Branch 的 Top-k 预算随上下文分布与长度如何扩展?若块排名出错会不会丢掉关键历史?这是该设计在实际 Agent 工作流中的核心风险点,论文目前缺少针对「块误排」情形的专项 ablation。

2. EvoArena:主流 Agent 在动态环境中平均准确率 39.6%

预印本 · arXiv:2606.13681 · MIT · HF 日榜 #1(127 upvotes)
大多数 Agent 评测都在静态环境里进行——环境的规则、状态、偏好在测试全程固定不变。现实部署恰好相反:软件 API 会升级、用户偏好会改变、terminal 命令集会迭代。EvoArena 是第一个把「环境变化」本身建模为评测维度的基准。3
评测设计:把环境变化建模为一系列渐进更新,覆盖 terminal(命令行工具版本升级)、software(应用接口变化)和 social(用户偏好漂移)三个域。每个任务实例是一条"进化链",Agent 需要完成连续相关子任务,不能只会处理单次快照。
实验结论:当前最强的主流 Agent 在 EvoArena 上的平均准确率为 39.6%,远低于静态评测成绩。链级准确率(chain-level accuracy,要求完成整条进化链的所有连续子任务)缺口更大。
论文同时提出 EvoMem:一种基于 patch 的记忆范式。与把记忆维护为「最新状态快照」不同,EvoMem 把每次环境更新记录为结构化的 patch 历史(包含 pre/post 状态、更新理由、佐证信息),让 Agent 能通过记忆变化序列来推理环境演变。
EvoMem 带来的提升:EvoArena 上平均 +1.5%,GAIA 上 +6.1%,LoCoMo 上 +4.8%。链级准确率额外提升 3.7%。机制分析显示,EvoMem 让 Agent 的记忆对完整演变状态保留更充分——而非每次更新后遗忘前序状态。4
这个结果有一个值得警惕的含义:静态评测高分的 Agent,放到真实动态场景里成绩可能腰斩。对于需要部署长时运行 Agent 的工程团队,EvoArena 的评测框架值得纳入测试套件。
EvoArena 论文封面,展示动态环境中 Agent 记忆追踪示意
EvoArena 基准覆盖 terminal / software / social 三域,模拟真实部署中的渐进式环境变化 3

3. InterleaveThinker:让任意图像生成器具备交错文图能力

预印本 · arXiv:2606.13679 · HF upvotes 77,GitHub 124 stars
「交错生成」(interleaved generation)指的是模型能输出文本与图像穿插的序列,而不是只生成一张图。视觉叙事、操作说明、具身操控等场景天然需要这个能力,但当前大多数图像生成器的架构不支持它。InterleaveThinker 的思路不是重新训练一个统一的多模态模型,而是在现有图像生成器外面套一个多 Agent 流水线。5
流水线由两个 Agent 组成
  • Planner Agent:组织输入序列,告诉图像生成器每一步需要执行什么,输出结构化指令。
  • Critic Agent:评估生成器的输出,识别偏离计划的样本,反馈精修指令让生成器重试。
训练数据:构建了 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 做冷启动格式对齐,再用 Interleave-Critic-RL-13k + GRPO 强化 Critic 的逐步指令纠错能力。
奖励设计:一次完整的交错生成轨迹可能涉及 25+ 次生成器调用,端到端 RL 计算代价极大。论文提出 accuracy reward(忠实于 Planner 的计划)+ step-wise reward(跨步一致性)两类奖励,用单步 RL 近似全轨迹优化。
实验结果:在交错生成基准上,InterleaveThinker 与 Nano Banana 和 GPT-5 性能持平;在 4-step FLUX.2-klein 上,WISE 和 RISE 推理基准也有显著提升。
社区指出的核心开放问题:Critic 的奖励信号是否会在 Planner 规划出错时强化错误路径,而非纠偏?Planner 贡献 vs Critic 贡献的 ablation 缺失,是理解该方法鲁棒性的关键缺口。6

4. MaxProof:MiniMax M3 在 IMO 2025 得 35/42,超过人类金牌线

预印本 · arXiv:2606.13473 · MiniMax · HF upvotes 76
MaxProof 是 MiniMax M3 系列的数学证明测试时扩展框架,核心问题是:如何在测试时通过计算投入来持续提高竞赛级证明的质量?7
训练阶段,M3 模型被训练出三种证明相关能力:
  1. Proof Generation:生成证明候选
  2. Proof Verification:验证证明正确性(关键是低假阳性率的生成式验证器)
  3. Critique-Conditioned Proof Repair:根据批评意见修复证明
这三种能力最终合并进同一个发布的 M3 模型权重中。
测试时,MaxProof 把模型同时用作 generator、verifier、refiner 和 ranker,对候选证明群体进行搜索,通过锦标赛选择(tournament selection)返回最终答案。这是种群级测试时扩展(population-level test-time scaling),计算投入越多,候选质量越高。
结果:IMO 2025 得 35/42,USAMO 2026 得 36/42,均超过人类金牌分数线。
这一结果的意义在于,数学奥林匹克问题一直是验证 LLM 形式化推理边界的标准:它们无法靠记忆或模式匹配解决,必须构造完整且正确的逻辑链。MaxProof 提供的路径是:不是训练出一个更强的单一模型,而是让已有能力在测试时通过种群搜索迭代收敛到更好的证明。

5. EurekAgent:自主科研的瓶颈在环境工程而非 Agent 能力

预印本 · arXiv:2606.13662 · 清华大学 KEG · HF upvotes 26,GitHub 31 stars
EurekAgent 的核心论点与近期大量「更强 Agent 架构」工作逆向而行:随着模型能力的持续提升,自主科研的瓶颈正在从「Agent 工作流设计」转向「环境工程」——即塑造 Agent 行为的资源、约束和接口如何设计。8
论文把「环境工程」拆分为四个维度:
维度具体措施
权限工程受限执行环境 + 独立评测沙箱,防止 Agent 直接操控评测结果
制品工程基于文件系统和 Git 的跨 Agent 协作,结构化管理中间产物
预算工程预算感知探索策略,让 Agent 在成本约束下分配计算资源
人机协作工程低摩擦的人工监督与干预接口,不需要大量人工就能介入
实验结果:EurekAgent 在数学、kernel 工程和机器学习任务上刷新了多项 SOTA,其中 26 圆堆叠问题(circle packing)的新纪录用不到 11 美元 API 费用发现。
环境工程这个框架的价值不只是工程技巧的汇总——它把 reward hacking 和高摩擦人工监督明确标记为需要通过环境设计来抑制的「有害行为」,而非 Agent 本身要解决的推理问题。这是一个视角上的偏移:与其训练更鲁棒的 Agent,不如让环境让 Agent 无法走捷径。9
EurekAgent 架构图,展示四维环境工程框架
EurekAgent 四维环境工程架构:权限 / 制品 / 预算 / 人机协作 8

Añade más opiniones o contexto en torno a este contenido.

  • Inicia sesión para comentar.