HuggingFace 每日 Trending Papers 解读 · 2026-05-08
2026-05-08 HuggingFace 收录 38 篇 Trending 论文,重点解读 21 篇,涵盖 Agent RL 技能演化、扩散模型新范式、检索系统革新三大主线,帮你快速判断哪篇值得深读。
研究速览
今日 HuggingFace Daily Papers 收录 38 篇论文1,集中在三条主线:Agent 强化学习与技能演化、扩散模型新范式、检索与推理系统革新。本期重点解读 21 篇,帮你快速筛出值得深读的方向。
第一梯队:今日最热(upvotes ≥ 12)
#1 · Skill1:让 AI Agent 同时学会「找技能、用技能、总结技能」
57 upvotes |
Agent RL | arXiv 预印本这篇在解决什么问题?
想象一个 AI 助手需要完成复杂任务。它有一个「技能库」——里面存了过去学会的操作方法。问题是:技能的三个环节(找哪个技能用、实际用技能完成任务、把新经验总结成新技能)一直是分开优化的,就像一个人的「记忆、行动、学习」被三个独立的教练分别训练,配合起来效率很低。
用了什么方法?
Skill1 用一套统一的策略同时训练三件事,而且只用「最终任务完不完成」这一个信号来反馈。不同频率的信号被分配给不同环节:技能蒸馏(学新技能)对应频繁变化的信号,技能选择对应低频趋势信号。相当于同一个教练用不同节奏同时训练三块肌肉。
有什么意义?
在 ALFWorld(模拟家庭任务)和 WebShop(模拟购物)两个基准上超越了现有的技能型和 RL 基线。消融实验也证明,任何一个信号拆掉都会导致退化——三件事确实需要协同训练2。
值得深读吗? 如果你在做 Agentic 任务训练,尤其是技能库管理方向,值得。代码暂未开源。
论文:arxiv.org/abs/2605.06130 | 作者:Yaorui Shi 等 9 人 | 机构:未标注
#2 · DCI:「最好的检索器是没有检索器」
52 upvotes |
信息检索 / Agent | arXiv 预印本这篇在解决什么问题?
传统的信息检索有一套完整的管道:先把文档转成向量(embedding),建立索引,再用语义相似度匹配。这套方案的问题在于:它需要额外的模型、额外的基础设施,而且对本地文件、动态语料不太友好。
有没有可能直接跳过这套基础设施,让 AI Agent 像人一样直接在原始文件上 grep 一下?
用了什么方法?
DCI(Direct Corpus Interaction)就是这个思路的实现:Agent 直接用
grep、find、bash 等终端命令搜索原始语料,不需要任何 embedding 模型、向量索引或检索 API。第一作者的原话是:「最好的 agentic search 检索器就是没有检索器——用 grep 和 bash 替换了整个 pipeline。」3
有什么意义?
在 BrowseComp-Plus 上达到 62.9%,multi-hop QA 提升 30.7%,IR ranking 提升 21.5%。在 BRIGHT、BEIR 两个标准数据集上大幅超越传统稀疏/稠密检索基线4。
代码已开源:github.com/DCI-Agent/DCI-Agent-Lite(MIT,27 stars)
值得深读吗? 极度值得。这是范式级的提问——是否所有检索场景都需要 embedding?对做 RAG 系统的人有直接冲击。
论文:arxiv.org/abs/2605.05242 | 作者:Zhuofeng Li 等 19 人 | 机构:TIGER-Lab / Waterloo / Stanford / UW
#3 · Cola DLM:文字生成不必依赖「下一个词」的范式
46 upvotes |
语言模型 / 扩散模型 | arXiv 预印本这篇在解决什么问题?
所有主流大语言模型(GPT、LLaMA 等)都基于同一个原则:从左到右,一个词接一个词地预测。这叫「自回归」范式。这篇论文在问:这是唯一的路吗?
用了什么方法?
Cola DLM 换了一条路:不在离散的词上建模,而是把文字压缩成连续的语义向量(叫「潜空间」),然后在这个连续空间里用扩散模型来生成内容——就像图像生成里的 Stable Diffusion 那样,但对象是文字。
具体架构:Text VAE(把文字压缩成连续向量)→ block-causal DiT(在连续空间里建模全局语义)→ 条件解码(把向量还原成文字)。
第一作者这样描述核心出发点:「我相信,表征才是这项工作的核心问题——语言建模是否必须绑定离散 token?」5
有什么意义?
大约 2B 参数,在 8 个基准上能严格匹配传统自回归模型的性能,同时支持扩展到多模态(文字+视觉统一建模)6。论文长达 99 页,作者承诺 1-2 周内开源。
值得深读吗? 如果你对语言模型架构的未来方向感兴趣,这篇是今日最值得精读的之一。目前代码未开源,可先看论文架构设计。
论文:arxiv.org/abs/2605.06548 | 作者:Hongcan Guo 等 11 人 | 机构:HKU(部分)
#4 · MiA-Signature:从认知科学借来的长文理解方案
41 upvotes |
长上下文 / RAG | arXiv 预印本(进行中)这篇在解决什么问题?
语言模型处理长文本时,读到后面往往会「忘记」前面的内容。本文想用一种更紧凑的方式,捕捉「当前问题触发了哪些全局概念」,而不是把整篇文档都塞进上下文。
用了什么方法?
灵感来自认知科学的「全局点火(global ignition)」理论——人类大脑在接收刺激时,并不是所有神经元都激活,而是一小群高层概念节点被「点火」,形成当前认知的激活签名。
MiA-Signature 模仿这个机制,用「亚模选择」算法(一种在信息论上有理论保证的贪心方法)从查询触发的激活中提取紧凑的概念集合,作为压缩的上下文条件信号7。集成到 RAG 和 agentic 系统后,在多个长上下文理解任务上取得一致性性能提升。代码暂未开源。
值得深读吗? 做 RAG 或长上下文系统的人可以关注,但作为进行中的研究,技术细节可能还不完整。
论文:arxiv.org/abs/2605.06416 | 作者:Yuqing Li 等 6 人 | 机构:腾讯
#5 · RaguTeam:7 个模型组队,拿下多轮 RAG 评测第一
37 upvotes |
RAG / 多模型集成 | SemEval-2026 Workshop(ACL)这篇在解决什么问题?
SemEval-2026 Task 8 是一个多轮 RAG 对话生成评测。Novosibirsk State University 的团队在 26 支参赛队中拿了第一名。
用了什么方法?
他们用了 7 个异构 LLM(包括 Gemini-3-Pro-Preview、Claude 4.5 Haiku 等)+ 两种 prompt 变体,然后用 GPT-4o-mini 作为裁判,逐条选出最佳回复。本质上是用模型多样性对抗单模型的偏差。
第一作者总结道:「这是一堂实用大师课,教如何从多样化集成中榨取顶级 RAG 性能,而非押注单一巨型模型。」8
有什么意义?
conditioned harmonic mean 得分 0.7827,远超最强单模型基线 gpt-oss-120b(0.6390)9。代码已开源:github.com/RaguTeam/ragu_mtrag_semeval
值得深读吗? 做 RAG 工程落地、多模型 ensemble 的人值得看,尤其是消融实验部分。
论文:arxiv.org/abs/2605.04523 | 作者:Ivan Bondarenko 等 6 人 | 机构:Novosibirsk State University
#6 · MARBLE:多个优化目标同时调,扩散模型不再顾此失彼
34 upvotes |
扩散模型 / RLHF | arXiv 预印本这篇在解决什么问题?
用 RL 微调图像生成模型时,通常有多个维度的奖励需要同时优化(比如:图文相关性、美感、真实感、安全性)。问题是这些目标互相竞争,调好一个可能会拉垮另一个。传统方法是手动给每个奖励分配权重,但这很难做好。
用了什么方法?
MARBLE 的核心思路:不在标量奖励层面做加权,而是让每个奖励独立计算梯度,然后用二次规划(QP)找一个让所有梯度方向都尽量满意的组合更新方向。这类似于多目标优化里的 Pareto 前沿求解,只是被应用在了扩散模型的 RL 训练里。
第一作者声称:「据我们所知,这是首次在扩散 RL 中解决多奖励平衡问题。」10
有什么意义?
在 SD3.5 Medium 上同时提升了 5 个奖励维度,且最难优化的那个奖励的梯度余弦从负数翻正11。代码部分开源:github.com/aim-uofa/MARBLE(推理代码+checkpoint 已发布,训练代码待发布)
值得深读吗? 做图像生成 RL 微调的人必看。做多目标优化的人也可以看看这个方法如何被应用到梯度层面。
论文:arxiv.org/abs/2605.06507 | 作者:Canyu Zhao 等 | 机构:浙江大学 / Hithink
#7 · FFDC:机器人能判断「想象中的未来什么时候不可信」吗
34 upvotes |
具身 AI / 机器人 | arXiv 预印本这篇在解决什么问题?
让机器人执行长序列任务时,有一类方法叫「World Action Model(WAM)」:机器人预测未来几步的状态,然后直接按预测执行,不需要每步都感知环境。这很高效,但预测有时是错的,继续按错误预测执行会出大问题。
用了什么方法?
FFDC 引入了一个轻量的验证器——持续对比「预测的下一帧」和「真实观察到的下一帧」,发现偏差超过阈值就触发重规划。这相当于给机器人加了一个「自我怀疑机制」:继续相信自己的想象,还是重新看一眼现实。
论文的核心问题是:「机器人能告诉我们,它想象的未来什么时候不再可信吗?」12
有什么意义?
在 RoboTwin 基准上减少 69.1% 的前向 pass、34% 的执行时间,成功率提升 2.54%;真机实验中成功率提升 35%13。
值得深读吗? 做具身 AI 或机器人的人值得关注。代码暂未开源。
论文:arxiv.org/abs/2605.06222 | 作者:Rui Wang 等 7 人 | 机构:HKU
#8 · LoPE:用「废话前缀」破解 RL 训练中的探索死局
25 upvotes |
LLM 训练 / RL | arXiv 预印本这篇在解决什么问题?
用 GRPO 等强化学习方法训练 LLM 推理时,有一个经典难题叫「零优势问题(zero-advantage)」:当模型在一道题上采样了很多次,所有尝试都失败时,强化学习的梯度信号为零,训练直接停滞。这就像一个学生在一道题上反复做、反复错,但老师什么反馈都不给,学生就彻底卡住了。
用了什么方法?
这篇论文的解法出乎意料地奇特:在 prompt 前面加一段 Lorem Ipsum(那段著名的「假拉丁语」无意义文本)。这段随机前缀扰动了模型的「推理入口」,促使它走不同的推理路径,从而在被困住的题目上解锁新的探索方向14。
有什么意义?
在 1.7B、4B、7B 三个规模的模型上都显著优于原始 prompt 的重采样。实验还发现其他低困惑度的拉丁随机序列也有类似效果15。
值得深读吗? 做 RL 训练的人可以快速看一遍。方法极简,如果有效,直接能用在自己的训练流程里。代码暂未开源。
论文:arxiv.org/abs/2605.05566 | 作者:Langlin Huang 等 6 人 | 机构:未标注
#9 · CDM:4 步扩散生成,不要 GAN 也不要 Reward Model
24 upvotes |
图像生成 / 扩散模型 | arXiv 预印本这篇在解决什么问题?
高质量图像生成通常需要扩散模型走几十甚至上百步。有一类方法叫「蒸馏(Distillation)」,试图把步骤压缩到 4 步甚至更少。但现有的离散蒸馏方法在固定步骤上匹配分布,容易产生视觉伪影和过度平滑。
用了什么方法?
CDM(Continuous-time Distribution Matching)把这个过程从「在固定几个时间点上匹配」改成了「在连续时间上随时匹配」——用动态的连续 schedule 替代固定的离散采样点,在整个采样轨迹的任意位置执行分布对齐。
有什么意义?
在 SD3-Medium 上仅 4 步生成即达到当前 SOTA 视觉质量(Aesthetic/HPSv3/PickScore 均领先),无需 GAN 或 Reward Model16。代码已开源且完整:github.com/byliutao/cdm(44 stars,含训练/推理/评估)
值得深读吗? 做图像生成加速的人值得精读。代码已全部开放,可以直接复现。
论文:arxiv.org/abs/2605.06376 | 作者:Tao Liu 等 11 人 | 机构:阿里巴巴
#10 · SkillOS:Agent 的技能管理员,也需要被训练
23 upvotes |
Agent RL / 技能管理 | arXiv 预印本这篇在解决什么问题?
Skill1(#1)解决了「如何演化技能」,SkillOS 解决的是另一个维度:技能库的长期管理策略。随着任务积累,技能库越来越大,如何决定「什么技能保留、什么技能更新、什么技能合并」是一个独立的问题。
用了什么方法?
SkillOS 把「执行者(executor)」和「管理者(curator)」分离——executor 负责用技能完成任务,curator 负责从经验中更新技能库。训练时 executor 冻结,只训练 curator,用「分组任务流」提供学习信号:早期轨迹更新技能库,后期相关任务评估效果17。
有什么意义?
多轮 agentic 任务和单轮推理任务上一致优于无记忆和强记忆基线。学到的 curator 可以迁移到不同的 executor 架构和任务域18。
值得深读吗? 配合 #1 Skill1 一起看效果更好,适合在做长期 Agent 系统的人。代码暂未开源,部分作者来自 Google。
论文:arxiv.org/abs/2605.06614 | 作者:Siru Ouyang 等 16 人 | 机构:部分 Google
#11 · AVI Survey:第一份「大基础模型视角」的音视频 AI 综述
20 upvotes |
多模态 / 综述 | arXiv 预印本这篇在解决什么问题?
大基础模型出现之后,「音频 + 视觉」的联合能力有了新的维度:不只是识别,还包括生成(音频驱动视频)、交互(对话、具身),以及理解跨模态的一致性。这篇综述第一次系统梳理了这整个图景。
主要内容:56 页,涵盖 3 个大任务类别(感知 → 生成 → 交互)、24 张总结表、典型数据集和开放挑战。通讯作者(NUS 的 Hao Fei)这样概括:「AVI 旨在构建能通过声音和视觉联合感知、生成和交互的 AI 系统——走向真正的全模态智能。」19
论文维护了一个 GitHub 论文列表:github.com/JavisVerse/Awesome-AVI20
值得深读吗? 做多模态、视频理解方向的人建议把这篇综述下载下来做参考手册。
论文:arxiv.org/abs/2605.04045 | 作者:You Qin 等 15 人 | 机构:NUS / Microsoft
#12 · StraTA:先制定策略再行动,让 Agent 推理不再短视
12 upvotes |
Agent RL | arXiv 预印本这篇在解决什么问题?
传统的 RL 训练下,LLM Agent 是纯「反应式」的:看到当前状态,直接决定下一步动作。这在长 horizon 任务里会出问题——Agent 只盯着眼前一步,缺乏全局规划,探索效率也很低。
用了什么方法?
StraTA 在执行动作之前,先让 Agent 生成一段简短的自然语言「策略声明」——就像下棋前先想好大方向再走子。然后所有后续动作都在这个策略条件下执行,整个过程用 hierarchical GRPO 联合训练。
第一作者指出:「长 horizon LLM Agent 不该是纯反应式的——当规划和执行纠缠在一起,探索和信用分配都会受损。」21
有什么意义?
ALFWorld 93.1%、WebShop 84.2%、SciWorld 63.5%,三个任务均超越闭源前沿模型22。代码已开源:github.com/xxyQwQ/StraTA
值得深读吗? 做 Agent 任务的人值得看,代码已开放。
论文:arxiv.org/abs/2605.06642 | 作者:Xiangyuan Xue 等 8 人 | 机构:未标注
第二梯队:值得关注(upvotes 3–11)
#13 · Auto Research(CMU):AI 自己做实验、改代码、写出训练配方
11 upvotes |
AutoML / 自动研究 | arXiv 预印本Carnegie Mellon University 的团队构建了一套完全由外部测量驱动的闭环自动化研究系统——多个专业 Agent 各负责训练配方的不同子区域,1,197 次正式试验完全无人干预,每次试验包含假设、代码编辑、评估结果和反馈。结果:Parameter Golf 指标 bpb 降低 0.81%,NanoChat-D12 CORE 提升 38.7%23。
#14 · A²TGPO(腾讯):多轮 RL 中的逐轮信用分配问题
10 upvotes |
Agent RL / RLHF | arXiv 预印本解决多轮 agentic RL 中「稀疏奖励下如何把功劳分配给每一轮」的问题。引入信息增益(IG)作为内在过程信号,并通过三个机制修复此前 IG 信号的系统性缺陷:turn-group normalization(按问题和轮次索引归一化)、variance-rescaled discounted accumulation(让不同轮次的优势量级可比)、adaptive turn-level clipping(根据每轮 IG 自适应调节裁剪范围)24。
代码:github.com/CuSO4-Chen/A-TGPO | 论文:arxiv.org/abs/2605.06200 | 机构:腾讯
#15 · ScaleLogic:RL 训练 LLM 推理时,逻辑表达力有多重要
9 upvotes |
LLM 推理 / RL | arXiv 预印本用合成逻辑推理框架 ScaleLogic 独立控制推理深度和逻辑表达力,发现 RL 训练计算量与推理深度之间有幂律关系(T ∝ D^γ,R² > 0.99),而这个指数 γ 随逻辑表达力单调递增(1.04 → 2.60)——表达力越强的模型,深入训练越值钱,下游性能增益最高 +10.66 分25。
论文:arxiv.org/abs/2605.06638 | 无公开代码
#16 · UniPool(CUHK):把 MoE 的「各层独享专家」改成全局共享池
7 upvotes |
LLM 架构 / MoE | arXiv 预印本将 MoE 架构的每层独立专家集改为全局共享专家池,各层共享同一批专家但用独立路由器访问。5 种 LLaMA 规模上训练 30B token,验证损失最高降低 0.0386;仅用 41.6% 的专家参数量就能匹敌原 MoE,深层路由器替换为均匀随机路由仅下降 1.0-1.6% 准确率——说明逐层独立专家有显著冗余26。
代码:github.com/Centaurus-Alpha/UniPool | 论文:arxiv.org/abs/2605.06665 | 机构:CUHK
#19 · AI Co-Mathematician(Google DeepMind):FrontierMath 最高分 48%
6 upvotes |
数学 AI / 多 Agent | arXiv 预印本这个结果值得单独说说:在 FrontierMath Tier 4(一个专门为考验 AI 数学能力设计的困难数学基准)上取得 48% 得分,是目前所有已评估 AI 系统中的最高分。
AI Co-Mathematician 是 Google DeepMind 的多 Agent 系统,覆盖数学研究全流程:创意生成、文献搜索、计算探索、定理证明、理论构建。采用异步状态化工作空间设计,能追踪失败假设、优化用户意图27。早期测试中已帮助研究者解决了开放问题。Google DeepMind 内部项目,无公开代码。
论文:arxiv.org/abs/2605.06651 | 作者:Daniel Zheng、Pushmeet Kohli 等 18 人
#23 · EMO(Ai2):让 MoE 专家在训练中自然「涌现」专业分工
5 upvotes |
LLM 架构 / MoE | arXiv 预印本Allen Institute for AI 的工作,在预训练阶段让 MoE 自然涌现模块化专家分组——核心约束是同一文档内的 token 倾向于用同一组专家。结果:仅保留 25% 的专家,性能只下降 1%(标准 MoE 在同等裁剪下直接崩溃)。EMO 的专家在语义层面专业化,而标准 MoE 只有底层句法专业化28。
代码:github.com/allenai/EMO | 论文:arxiv.org/abs/2605.06663 | 机构:Ai2
#24 · 数据受限时怎么扩展模型:修正版 Chinchilla 定律
4 upvotes |
LLM 训练 / Scaling Laws | arXiv 预印本Chinchilla 定律假设每个 token 都是独一无二的,但现实中数据往往被重复使用。这篇用加性过拟合罚项修正了 Chinchilla 公式,结论是:超过一定重复次数后,继续重复数据适得其反,应把计算投入模型容量;强权重衰减(λ=1.0)能把过拟合系数降低约 70%29。
论文:arxiv.org/abs/2605.01640 | 无公开代码
#25 · KernelBench-X(清华):LLM 写 GPU Kernel,哪类任务全部失败
3 upvotes |
LLM for Code / GPU 优化 | arXiv 预印本清华大学构建了 176 个任务的 GPU Kernel 生成评测基准,系统比较 5 种方法(含 Claude、DeepSeek-Coder)。关键发现:72% 的 Fusion 类任务所有方法均失败;量化 kernel 生成成功率为 0/30;迭代精炼提高了编译率(52.3% → 68.8%)但降低了平均加速比(1.58× → 1.44×);46.6% 生成成功的 kernel 反而比 PyTorch 基线更慢30。
代码:github.com/BonnieW05/KernelBenchX | 论文:arxiv.org/abs/2605.04956 | 机构:清华大学
第三梯队:低调但有意思的几篇
尽管 upvotes 不高,以下几篇的研究问题本身值得单独点出:
#27 · Balanced Aggregation(复旦 OpenMOSS):GRPO 训练中的梯度聚合偏差(3 upvotes)
发现 GRPO 的 token 级聚合会引入「符号-长度耦合」偏差,序列级聚合则会压低长回复。提出 Balanced Aggregation(BA)修复这个系统性问题——在正/负样本内部分别做 token 级均值,再按序列数量组合。Qwen2.5-Math-7B + Qwen3-1.7B 的 6 个基准上一致提升31。
论文:arxiv.org/abs/2605.04077 | 机构:复旦大学 OpenMOSS
#34 · EnergyFlow:从扩散策略中提取隐藏奖励(2 upvotes,ICML 2026 已接收)
用能量函数统一了生成式动作建模和逆强化学习,理论证明扩散模型的去噪分数函数恢复了专家的软 Q 函数梯度——这意味着无需对抗训练就能从演示中提取奖励信号。已被 ICML 2026 接收32。
代码:github.com/sotaagi/EnergyFlow | 论文:arxiv.org/abs/2605.00623
#35 · BioTool(UCSD):4B 小模型调好工具调用,打败 GPT-5.1(1 upvote,ACL 2026 已发表)
构建了 34 个 NCBI/Ensembl/UniProt 常用生物医学工具的调用数据集(7,040 条人工验证的查询-API 调用对)。4B 参数 LLM 微调后在生物医学工具调用性能上超越商用大模型,已被 ACL 2026 接收33。
代码:github.com/gxx27/BioTool | 论文:arxiv.org/abs/2605.05758 | 机构:UCSD
#36 · TIDE(Apple):每层 Transformer 都应该知道「这个词是什么」(1 upvote)
指出标准 Transformer 只在输入嵌入层注入 token 身份信息,之后每层都靠上下文推断——对稀有 token 尤其不友好(Zipf 分布使稀有 token 嵌入严重欠训练)。TIDE 在每一层都通过轻量路由器补注 token 身份信息,理论和实验均证明有收益34。
论文:arxiv.org/abs/2605.06216 | 机构:Apple,暂无代码
今日趋势小结
Agent RL 方向的论文数量最多,且方法集中在「如何更好地训练 Agent 的计划与执行能力」——Skill1、SkillOS、StraTA、A²TGPO、ScaleLogic 各自在不同环节切入,有明显的研究迭代迹象。
扩散模型方向的两篇(Cola DLM、CDM)方向相反但都值得关注:前者在问文字生成是否可以抛弃离散 token 范式,后者在解决图像生成的步骤效率问题。
检索方向的 DCI 是今日最有冲击力的一篇——「删掉检索器」是个反直觉的结论,但数据支持它。如果这个范式被验证,对当前 RAG 基础设施的影响相当深远。
今日还有 17 篇论文因篇幅未详细展开,覆盖自动驾驶(ReflectDrive-2)、表格嵌入(TabEmbed)、视频背景替换(Sparkle)、多模态域泛化评测(MMDG-Bench)、量子化学(GQKAE)等方向——可直接访问 HuggingFace Daily Papers 查看完整列表。
封面图由 AI 生成,基于 HuggingFace Daily Papers 主题。
参考来源
- 1Daily Papers - Hugging Face (May 8, 2026)
- 2Skill1: Unified Evolution of Skill-Augmented Agents via RL
- 3Beyond Semantic Similarity - HuggingFace
- 4Beyond Semantic Similarity - arXiv
- 5Continuous Latent Diffusion Language Model - HuggingFace
- 6Continuous Latent Diffusion Language Model - arXiv
- 7MiA-Signature - arXiv
- 8RaguTeam at SemEval-2026 - HuggingFace
- 9RaguTeam at SemEval-2026 - arXiv
- 10MARBLE - HuggingFace
- 11MARBLE - arXiv
- 12When to Trust Imagination - HuggingFace
- 13When to Trust Imagination - arXiv
- 14Nonsense Helps - arXiv
- 15Nonsense Helps - HuggingFace
- 16Continuous-Time Distribution Matching - arXiv
- 17SkillOS - arXiv
- 18SkillOS - HuggingFace
- 19Audio-Visual Intelligence in Large Foundation Models - HuggingFace
- 20Audio-Visual Intelligence in Large Foundation Models - arXiv
- 21StraTA - HuggingFace
- 22StraTA - arXiv
- 23Auto Research with Specialist Agents - arXiv
- 24A^2TGPO - arXiv
- 25Can RL Teach Long-Horizon Reasoning to LLMs? - arXiv
- 26UniPool - arXiv
- 27AI Co-Mathematician - arXiv
- 28EMO - arXiv
- 29Prescriptive Scaling Laws for Data Constrained Training - arXiv
- 30KernelBench-X - arXiv
- 31Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO - arXiv
- 32Recovering Hidden Reward in Diffusion-Based Policies - arXiv
- 33BioTool - arXiv
- 34TIDE: Every Layer Knows the Token Beneath the Context - arXiv
围绕这条内容继续补充观点或上下文。