大模型前沿速递 · 2026 年 6 月 15 日

今日精选 5 篇：MiniMax 的稀疏注意力机制将 1M 上下文 prefill 提速 14.2 倍；MIT EvoArena 揭示主流 Agent 在动态环境中准确率平均只有 39.6%；InterleaveThinker 首次用多 Agent 流水线给任意图像生成器装上交错文图生成能力；MiniMax MaxProof 让 M3 模型在 IMO 2025 拿到 35/42、超过人类金牌线；清华 EurekAgent 把「环境工程」提炼为自主科研的核心瓶颈，11 美元 API 费用刷新 26 圆堆叠 SOTA。

1. MiniMax Sparse Attention：让超长上下文在生产中跑起来

预印本 · arXiv:2606.13392 · MiniMax · HF 日榜 #2（119 upvotes，GitHub 270 stars）

MiniMax 稀疏注意力（MSA）直接针对生产部署瓶颈：当 Agent 工作流、仓库级代码推理或持久化记忆需要同时处理 100 万 token 时，softmax 注意力的二次复杂度在规模上完全不可行。1

核心方法 是一个双分支架构，建立在 GQA（Grouped Query Attention）之上：

Index Branch：轻量级分支对 KV 块打分，独立为每个 GQA Group 选出 Top-k 子集，允许每个 Group 有各自的稀疏检索模式。
Main Branch：在选中的块上执行精确的块稀疏注意力，不处理未选中的部分。

设计哲学是「简单可扩展」——故意避免复杂设计，让它能在大范围 GPU 上高效部署。GPU 执行路径上做了专项优化：无 exp 的 Top-k 选择 + KV-outer 稀疏注意力，提升张量核心利用率。

关键实验数字：在 109B 参数的原生多模态模型上，1M context 下 MSA 与 GQA 性能持平，但每 token 的注意力计算量降低 28.4 倍。配合自研 kernel，实际 wall-clock 时间：prefill 提速 14.2 倍、decoding 提速 7.6 倍（H800 上测量）。

MSA 的推理 kernel 已开源（见下方 embed），已量产部署于 MiniMax-M3。这意味着稀疏注意力从「论文方法」到「实际上线」完成了闭环验证。2

github.com · Repositorio de GitHub

MiniMax-AI/MSA

https://github.com/MiniMax-AI/MSA

Cargando tarjeta de contenido…

社区关注的核心问题：Index Branch 的 Top-k 预算随上下文分布与长度如何扩展？若块排名出错会不会丢掉关键历史？这是该设计在实际 Agent 工作流中的核心风险点，论文目前缺少针对「块误排」情形的专项 ablation。

2. EvoArena：主流 Agent 在动态环境中平均准确率 39.6%

预印本 · arXiv:2606.13681 · MIT · HF 日榜 #1（127 upvotes）

大多数 Agent 评测都在静态环境里进行——环境的规则、状态、偏好在测试全程固定不变。现实部署恰好相反：软件 API 会升级、用户偏好会改变、terminal 命令集会迭代。EvoArena 是第一个把「环境变化」本身建模为评测维度的基准。3

评测设计：把环境变化建模为一系列渐进更新，覆盖 terminal（命令行工具版本升级）、software（应用接口变化）和 social（用户偏好漂移）三个域。每个任务实例是一条"进化链"，Agent 需要完成连续相关子任务，不能只会处理单次快照。

实验结论：当前最强的主流 Agent 在 EvoArena 上的平均准确率为 39.6%，远低于静态评测成绩。链级准确率（chain-level accuracy，要求完成整条进化链的所有连续子任务）缺口更大。

论文同时提出 EvoMem：一种基于 patch 的记忆范式。与把记忆维护为「最新状态快照」不同，EvoMem 把每次环境更新记录为结构化的 patch 历史（包含 pre/post 状态、更新理由、佐证信息），让 Agent 能通过记忆变化序列来推理环境演变。

EvoMem 带来的提升：EvoArena 上平均 +1.5%，GAIA 上 +6.1%，LoCoMo 上 +4.8%。链级准确率额外提升 3.7%。机制分析显示，EvoMem 让 Agent 的记忆对完整演变状态保留更充分——而非每次更新后遗忘前序状态。4

这个结果有一个值得警惕的含义：静态评测高分的 Agent，放到真实动态场景里成绩可能腰斩。对于需要部署长时运行 Agent 的工程团队，EvoArena 的评测框架值得纳入测试套件。

EvoArena 论文封面，展示动态环境中 Agent 记忆追踪示意 — EvoArena 基准覆盖 terminal / software / social 三域，模拟真实部署中的渐进式环境变化 3

3. InterleaveThinker：让任意图像生成器具备交错文图能力

预印本 · arXiv:2606.13679 · HF upvotes 77，GitHub 124 stars

「交错生成」（interleaved generation）指的是模型能输出文本与图像穿插的序列，而不是只生成一张图。视觉叙事、操作说明、具身操控等场景天然需要这个能力，但当前大多数图像生成器的架构不支持它。InterleaveThinker 的思路不是重新训练一个统一的多模态模型，而是在现有图像生成器外面套一个多 Agent 流水线。5

流水线由两个 Agent 组成：

Planner Agent：组织输入序列，告诉图像生成器每一步需要执行什么，输出结构化指令。
Critic Agent：评估生成器的输出，识别偏离计划的样本，反馈精修指令让生成器重试。

训练数据：构建了 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 做冷启动格式对齐，再用 Interleave-Critic-RL-13k + GRPO 强化 Critic 的逐步指令纠错能力。

奖励设计：一次完整的交错生成轨迹可能涉及 25+ 次生成器调用，端到端 RL 计算代价极大。论文提出 accuracy reward（忠实于 Planner 的计划）+ step-wise reward（跨步一致性）两类奖励，用单步 RL 近似全轨迹优化。

实验结果：在交错生成基准上，InterleaveThinker 与 Nano Banana 和 GPT-5 性能持平；在 4-step FLUX.2-klein 上，WISE 和 RISE 推理基准也有显著提升。

社区指出的核心开放问题：Critic 的奖励信号是否会在 Planner 规划出错时强化错误路径，而非纠偏？Planner 贡献 vs Critic 贡献的 ablation 缺失，是理解该方法鲁棒性的关键缺口。6

4. MaxProof：MiniMax M3 在 IMO 2025 得 35/42，超过人类金牌线

预印本 · arXiv:2606.13473 · MiniMax · HF upvotes 76

MaxProof 是 MiniMax M3 系列的数学证明测试时扩展框架，核心问题是：如何在测试时通过计算投入来持续提高竞赛级证明的质量？7

训练阶段，M3 模型被训练出三种证明相关能力：

Proof Generation：生成证明候选
Proof Verification：验证证明正确性（关键是低假阳性率的生成式验证器）
Critique-Conditioned Proof Repair：根据批评意见修复证明

这三种能力最终合并进同一个发布的 M3 模型权重中。

测试时，MaxProof 把模型同时用作 generator、verifier、refiner 和 ranker，对候选证明群体进行搜索，通过锦标赛选择（tournament selection）返回最终答案。这是种群级测试时扩展（population-level test-time scaling），计算投入越多，候选质量越高。

结果：IMO 2025 得 35/42，USAMO 2026 得 36/42，均超过人类金牌分数线。

这一结果的意义在于，数学奥林匹克问题一直是验证 LLM 形式化推理边界的标准：它们无法靠记忆或模式匹配解决，必须构造完整且正确的逻辑链。MaxProof 提供的路径是：不是训练出一个更强的单一模型，而是让已有能力在测试时通过种群搜索迭代收敛到更好的证明。

5. EurekAgent：自主科研的瓶颈在环境工程而非 Agent 能力

预印本 · arXiv:2606.13662 · 清华大学 KEG · HF upvotes 26，GitHub 31 stars

EurekAgent 的核心论点与近期大量「更强 Agent 架构」工作逆向而行：随着模型能力的持续提升，自主科研的瓶颈正在从「Agent 工作流设计」转向「环境工程」——即塑造 Agent 行为的资源、约束和接口如何设计。8

论文把「环境工程」拆分为四个维度：

维度	具体措施
权限工程	受限执行环境 + 独立评测沙箱，防止 Agent 直接操控评测结果
制品工程	基于文件系统和 Git 的跨 Agent 协作，结构化管理中间产物
预算工程	预算感知探索策略，让 Agent 在成本约束下分配计算资源
人机协作工程	低摩擦的人工监督与干预接口，不需要大量人工就能介入

实验结果：EurekAgent 在数学、kernel 工程和机器学习任务上刷新了多项 SOTA，其中 26 圆堆叠问题（circle packing）的新纪录用不到 11 美元 API 费用发现。

环境工程这个框架的价值不只是工程技巧的汇总——它把 reward hacking 和高摩擦人工监督明确标记为需要通过环境设计来抑制的「有害行为」，而非 Agent 本身要解决的推理问题。这是一个视角上的偏移：与其训练更鲁棒的 Agent，不如让环境让 Agent 无法走捷径。9

EurekAgent 架构图，展示四维环境工程框架 — EurekAgent 四维环境工程架构：权限 / 制品 / 预算 / 人机协作 8