大模型前沿速递 · 2026 年 6 月 6 日

本期精选五篇近日高热度论文：从主动挖掘隐藏问题的 Agent、在动态约束下重规划的基准，到自进化 ML 算法发现框架、RL 习得低资源语言翻译元技能，以及用经济学影子价格优化推理预算——这些工作共同勾勒出当前大模型走向「长流程可用」的多条具体路径。

TIDE：让 Agent 主动发现你没提到的问题

现有 Agent 只响应用户明确指出的问题，但上下文里往往隐藏着更多潜在缺陷，且数量事先未知。KAIST 的 Soyeong Jeong 等人将这一场景正式化为「多隐性问题主动发现」任务，并提出了 TIDE 框架。1

TIDE 的核心是两个互补机制。迭代式发现：每轮只输出一小批候选问题，并以已发现的问题作为条件约束下一轮，避免单次预测只抓最显眼的问题而忽略覆盖面；思维模板：从历史已解决案例中提炼出可复用的模板，描述「应该关注哪些上下文信号、如何将信号连接成一个问题类别」。

arxiv.orghttps://arxiv.org/abs/2606.04743External link

Loading content card…

与单次预测基线和并行多 Agent 基线相比，TIDE 在任务覆盖率、问题识别和问题解决三个维度上均有明显提升，测试场景覆盖个人工作区文档和软件仓库，跨四种模型主干均有效。

HF 社区的一个质疑值得关注：如果真正新颖的问题不能映射到任何已有模板，会不会被模板偏置剪掉？论文作者 Soyeong Jeong 在 HF 页面承认这是真实的边界条件，并建议后续补充针对「模板外」问题的压力测试。1

预印本，arXiv:2606.04743，2026 年 6 月 3 日提交。

AdaPlanBench：动态约束下的 LLM 规划能力上限在哪里？

规划任务中，世界约束（物理规律、环境状态）和用户约束（偏好、隐性要求）往往不会一次性全部给出，而是在执行过程中逐步暴露。UIUC 的 Jiayu Liu、Heng Ji 等人针对这一场景构建了 AdaPlanBench，系统评估 LLM Agent 的自适应重规划能力。2

基准基于 307 个家居任务，设计了可扩展的双约束构建流水线，将世界约束和用户约束分三档（低 / 中 / 高）叠加到任务上。Agent 在多轮交互中每提出违反约束的方案就会触发反馈，需要依据累积反馈迭代修正计划。

对 10 个主流 LLM 的测试结果：最优模型准确率仅 67.75%，且随约束数量增加性能明显下降，用户约束的挑战远大于世界约束，失败案例中物理常识缺失和执行鲁棒性不足是主要原因。2

arxiv.orghttps://arxiv.org/abs/2606.05622External link

Loading content card…

作者在 HF 页面补充：基准通过三轮采样生成约束，并对世界 / 用户约束数量做了均衡处理，但社区提出的「故意偏斜约束分布的压力测试」尚未覆盖。

预印本，arXiv:2606.05622，2026 年 6 月 4 日提交。代码见 GitHub。

MLEvolve：让 LLM 多 Agent 真正完成 ML 算法发现

面向 MLE 的 LLM Agent 普遍存在三个瓶颈：分支间信息孤立、搜索无记忆、层级控制缺失。复旦/华东师范等机构的 Shangheng Du 等人提出 MLEvolve，在标准树搜索之上引入三层改进。3

Progressive MCGS：把树搜索扩展为图搜索，用图引用边实现跨分支信息流动，并以熵启发式进度调度逐步从广泛探索转向聚焦利用；Retrospective Memory：冷启动领域知识库与动态全局记忆结合，支持任务级经验检索与复用；自适应编码模式：将策略规划与代码生成解耦，保障长流程迭代稳定性。

在 MLE-Bench 上，MLEvolve 在 12 小时预算下（标准运行时长的一半）实现了平均奖牌率和有效提交率的 SOTA，同时在数学算法优化任务上超越了专用算法发现方法 AlphaEvolve，展示出跨域泛化能力。3 代码已开源，GitHub 在发布 24 小时内积累 301 stars。

github.com · GitHub repository

InternScience/MLEvolve

https://github.com/InternScience/MLEvolve

Loading content card…

预印本，arXiv:2606.06473，2026 年 6 月 4 日提交。

RL 让 LLM 习得低资源语言翻译的元技能

让 LLM 翻译从未见过的低资源语言，通常需要持续训练或在上下文中塞入语法书，但两者都容易过拟合特定语言、零样本迁移能力差。苏黎世大学的 Hanxu Hu、Rico Sennrich 等人提出：模型需要的不是记忆更多语言，而是「利用上下文语言知识」的元技能。4

他们的方案用 chrF（字符级 F 值翻译评估指标）作为奖励信号，对 LLM 做强化学习训练，让模型学会从上下文语言描述中提取和应用相关语言规则。

实验表明，RL 训练模型在完全未见过的语言上的翻译质量优于 in-context learning 和监督微调基线，尽管奖励信号本身仅是轻量的表面级指标。作者认为这说明 outcome-based RL 的作用域可以从数学/代码推理延伸到语境语言学习，是一条不依赖大规模标注语料的低资源语言处理新路径。4

预印本，arXiv:2606.06428，2026 年 6 月 4 日提交。代码见 GitHub。

CLEAR：把推理预算分配建模为经济学影子价格问题

推理时缩放提升了 LLM 的问题解决能力，但实际部署受限于严格的计算预算。北京大学的研究团队从经济学视角切入，将推理预算分配建模为全局约束优化问题：用偏移涌现函数对每个查询的推理效用建模，导出基于全局影子价格的最优分配策略。5

核心洞察是：在资源稀缺时，对无法在当前预算内解决的查询主动放弃，把节省下来的 token 分配给处于「涌现阈值附近」的可解查询，使边际效用均衡。这一策略被实现为 CLEAR（约束潜在效用均衡分配）。

多种流量模式下的实验表明，CLEAR 在 token 成本 vs. 平均准确率的帕累托前沿上有显著改善；在资源最稀缺的场景下，与均匀分配相比全局准确率最高提升 3 倍。5

预印本，arXiv:2606.03092，HF Daily Papers 收录，北京大学。

本期所有论文均为 arXiv 预印本，尚未经同行评审。

大模型前沿速递 · 2026 年 6 月 6 日

TIDE：让 Agent 主动发现你没提到的问题

AdaPlanBench：动态约束下的 LLM 规划能力上限在哪里？

MLEvolve：让 LLM 多 Agent 真正完成 ML 算法发现

RL 让 LLM 习得低资源语言翻译的元技能

CLEAR：把推理预算分配建模为经济学影子价格问题

References