
大模型前沿速递 · 2026 年 6 月 6 日
本期精选五篇新发论文:TIDE 让 Agent 主动发现隐藏问题;AdaPlanBench 测出最优 LLM 在动态双约束下仅达 67.75%;MLEvolve 自进化多 Agent 框架在 MLE-Bench 创 SOTA 并超越 AlphaEvolve;苏黎世大学证明 RL 可训练出低资源语言翻译的元技能;北大用经济学影子价格将 LLM 推理预算分配全局准确率提升 3 倍。

Research Brief
本期精选五篇近日高热度论文:从主动挖掘隐藏问题的 Agent、在动态约束下重规划的基准,到自进化 ML 算法发现框架、RL 习得低资源语言翻译元技能,以及用经济学影子价格优化推理预算——这些工作共同勾勒出当前大模型走向「长流程可用」的多条具体路径。
TIDE:让 Agent 主动发现你没提到的问题
现有 Agent 只响应用户明确指出的问题,但上下文里往往隐藏着更多潜在缺陷,且数量事先未知。KAIST 的 Soyeong Jeong 等人将这一场景正式化为「多隐性问题主动发现」任务,并提出了 TIDE 框架。1
TIDE 的核心是两个互补机制。迭代式发现:每轮只输出一小批候选问题,并以已发现的问题作为条件约束下一轮,避免单次预测只抓最显眼的问题而忽略覆盖面;思维模板:从历史已解决案例中提炼出可复用的模板,描述「应该关注哪些上下文信号、如何将信号连接成一个问题类别」。
Loading content card…
与单次预测基线和并行多 Agent 基线相比,TIDE 在任务覆盖率、问题识别和问题解决三个维度上均有明显提升,测试场景覆盖个人工作区文档和软件仓库,跨四种模型主干均有效。
HF 社区的一个质疑值得关注:如果真正新颖的问题不能映射到任何已有模板,会不会被模板偏置剪掉?论文作者 Soyeong Jeong 在 HF 页面承认这是真实的边界条件,并建议后续补充针对「模板外」问题的压力测试。1
预印本,arXiv:2606.04743,2026 年 6 月 3 日提交。
AdaPlanBench:动态约束下的 LLM 规划能力上限在哪里?
规划任务中,世界约束(物理规律、环境状态)和用户约束(偏好、隐性要求)往往不会一次性全部给出,而是在执行过程中逐步暴露。UIUC 的 Jiayu Liu、Heng Ji 等人针对这一场景构建了 AdaPlanBench,系统评估 LLM Agent 的自适应重规划能力。2
基准基于 307 个家居任务,设计了可扩展的双约束构建流水线,将世界约束和用户约束分三档(低 / 中 / 高)叠加到任务上。Agent 在多轮交互中每提出违反约束的方案就会触发反馈,需要依据累积反馈迭代修正计划。
对 10 个主流 LLM 的测试结果:最优模型准确率仅 67.75%,且随约束数量增加性能明显下降,用户约束的挑战远大于世界约束,失败案例中物理常识缺失和执行鲁棒性不足是主要原因。2
Loading content card…
作者在 HF 页面补充:基准通过三轮采样生成约束,并对世界 / 用户约束数量做了均衡处理,但社区提出的「故意偏斜约束分布的压力测试」尚未覆盖。
预印本,arXiv:2606.05622,2026 年 6 月 4 日提交。代码见 GitHub。
MLEvolve:让 LLM 多 Agent 真正完成 ML 算法发现
面向 MLE 的 LLM Agent 普遍存在三个瓶颈:分支间信息孤立、搜索无记忆、层级控制缺失。复旦/华东师范等机构的 Shangheng Du 等人提出 MLEvolve,在标准树搜索之上引入三层改进。3
Progressive MCGS:把树搜索扩展为图搜索,用图引用边实现跨分支信息流动,并以熵启发式进度调度逐步从广泛探索转向聚焦利用;Retrospective Memory:冷启动领域知识库与动态全局记忆结合,支持任务级经验检索与复用;自适应编码模式:将策略规划与代码生成解耦,保障长流程迭代稳定性。
在 MLE-Bench 上,MLEvolve 在 12 小时预算下(标准运行时长的一半)实现了平均奖牌率和有效提交率的 SOTA,同时在数学算法优化任务上超越了专用算法发现方法 AlphaEvolve,展示出跨域泛化能力。3 代码已开源,GitHub 在发布 24 小时内积累 301 stars。
Loading content card…
预印本,arXiv:2606.06473,2026 年 6 月 4 日提交。
RL 让 LLM 习得低资源语言翻译的元技能
让 LLM 翻译从未见过的低资源语言,通常需要持续训练或在上下文中塞入语法书,但两者都容易过拟合特定语言、零样本迁移能力差。苏黎世大学的 Hanxu Hu、Rico Sennrich 等人提出:模型需要的不是记忆更多语言,而是「利用上下文语言知识」的元技能。4
他们的方案用 chrF(字符级 F 值翻译评估指标)作为奖励信号,对 LLM 做强化学习训练,让模型学会从上下文语言描述中提取和应用相关语言规则。
实验表明,RL 训练模型在完全未见过的语言上的翻译质量优于 in-context learning 和监督微调基线,尽管奖励信号本身仅是轻量的表面级指标。作者认为这说明 outcome-based RL 的作用域可以从数学/代码推理延伸到语境语言学习,是一条不依赖大规模标注语料的低资源语言处理新路径。4
预印本,arXiv:2606.06428,2026 年 6 月 4 日提交。代码见 GitHub。
CLEAR:把推理预算分配建模为经济学影子价格问题
推理时缩放提升了 LLM 的问题解决能力,但实际部署受限于严格的计算预算。北京大学的研究团队从经济学视角切入,将推理预算分配建模为全局约束优化问题:用偏移涌现函数对每个查询的推理效用建模,导出基于全局影子价格的最优分配策略。5
核心洞察是:在资源稀缺时,对无法在当前预算内解决的查询主动放弃,把节省下来的 token 分配给处于「涌现阈值附近」的可解查询,使边际效用均衡。这一策略被实现为 CLEAR(约束潜在效用均衡分配)。
多种流量模式下的实验表明,CLEAR 在 token 成本 vs. 平均准确率的帕累托前沿上有显著改善;在资源最稀缺的场景下,与均匀分配相比全局准确率最高提升 3 倍。5
预印本,arXiv:2606.03092,HF Daily Papers 收录,北京大学。
本期所有论文均为 arXiv 预印本,尚未经同行评审。
Add more perspectives or context around this Post.