HuggingFace 每日论文解读 | 2026年5月7日：17篇 Trending Papers 全扫描

今天 HuggingFace trending 榜上线了 17 篇论文，其中 6 篇已拿到顶会 Offer（ICML/ACL/ACM MM 2026），最热两篇都来自同一个团队，方向都盯着「流式视频生成」——这个赛道正在快速升温。本期覆盖视频生成、多模态 Agent、机器人操控、自动驾驶、3D 资产、LLM 推理等九个方向，按热度分三档逐一拆解。

🔥 第一梯队：热度 ≥50 upvotes

1. Stream-R1 — 让 AI 视频生成「又好又稳」

原标题：Stream-R1: Reward Distillation for Streaming Video Generation

视频生成模型有个普遍痛点：质量不稳。同样的 prompt 跑几遍，结果差异很大——有时画面精细，有时糊成一片，文字也对不上。Stream-R1 的解法有点像「给模型请了个严格的质检老师」1。

具体方法：它引入了一个叫 Reliability-Perplexity Aware Reward Distillation 的框架。不改模型结构，也不增加推理时的计算量，只在训练阶段加一个 Reward Model（奖励模型）来评估生成结果有多好，然后把这个「好坏信号」反向传给模型，动态调整不同训练样本的权重——好的多学，差的少学。听起来很直觉，但实现细节上有不少工程难度。

在视频质量、运动自然度、文本与画面对齐三个维度上，Stream-R1 都有显著提升。关键优势是部署友好：不用换模型、不用加服务器，训好直接用。

作者/机构：Bin Wu、Mengqi Huang（通讯）等，中国科学技术大学（USTC）+ FrameX.AI 1
Venue：arXiv 预印本 2605.03849，cs.CV，2026-05-05
代码：github.com/FrameX-AI/Stream-R1

2. Stream-T1 — 推理阶段也能「多花时间换质量」

原标题：Stream-T1: Test-Time Scaling for Streaming Video Generation

Stream-R1 的姊妹工作，同一个 USTC + FrameX.AI 团队出品，但角度完全不同2。Stream-R1 是训练期优化，Stream-T1 是推理期优化——也就是说，模型训好之后，你愿意花多少算力，它就能给你多好的结果。

这个概念叫 Test-Time Scaling（测试时缩放），在语言模型里已经被 o1、DeepSeek-R1 等验证有效。Stream-T1 把它搬到了视频生成。它设计了三个模块：Stream-Scaled Noise Propagation（控制噪声传播方式）、Stream-Scaled Reward Pruning（剪掉差的候选分支）、Stream-Scaled Memory Sinking（缓解长视频的记忆漂移）。在 5 秒和 30 秒视频基准上，时序一致性、运动流畅度、帧级清晰度都有明显改善2。

实际价值：给视频生成提供了一个「质量旋钮」——预算紧时快速出结果，预算够时多跑几步换精品。

作者/机构：Yijing Tu、Mengqi Huang（通讯）等，USTC + FrameX.AI
Venue：arXiv 预印本 2605.04461，cs.CV，2026-05-06
代码：github.com/FrameX-AI/Stream-T1

2026-05-07 Trending 论文全景

17篇论文关键指标汇总

论文总数

顶会录用（ICML/ACL/ACM MM）

有开源代码

榜首 upvotes（Stream-R1）

正在加载统计卡片...

3. OpenSearch-VL — 开源版「会搜索的视觉 Agent」

原标题：OpenSearch-VL: A Fully Open-Source Multimodal Deep Search Agent

当你问 AI「这张图里写的药能治什么病？」——这不只是看图，还需要搜索、推理、再搜索。这就是多模态搜索 Agent 要干的活。OpenSearch-VL 是首个完全开源的实现方案3。

它给模型配了 7 种「工具」：文本搜索、图像搜索、OCR（识别图中文字）、图片裁剪、锐化、超分辨率、透视校正。模型学会了根据问题自主决定用哪些工具、以什么顺序用。训练数据上，团队基于 Wikipedia 路径采样构建了两个数据集（SearchVL-SFT-36k 和 SearchVL-RL-8k），全部开放。训练算法叫 Fatal Perception GRPO，专门解决多轮交互中的关键感知错误。基于 Qwen3-VL 训练，在 7 个基准上平均提升超 10 分3。

对要做多模态 Agent 的团队来说，这套数据 + 框架 + 训练配方全开源，是少见的可以直接复现和二次开发的起点。

作者/机构：Shuang Chen（通讯）等 10 人
Venue：arXiv 预印本 2605.05185，cs.CV，2026-05-06
代码：github.com/shawn0728/OpenSearch-VL

4. RLDX-1 — 86.8% 成功率的机器人灵巧手

原标题：RLDX-1: A Dexterous Manipulation Policy for Humanoid Robots

让机器人手做精细操作（拧瓶盖、插插头、叠衣服）是机器人领域公认的最难问题之一。RLDX-1 在人形机器人 ALLEX 任务上达到了 86.8% 的成功率4，同条件下 π₀.₅ 和 GR00T N1.6（英伟达旗下 Isaac 团队的模型）都只有约 40%。

核心是一个叫 Multi-Stream Action Transformer（MSAT） 的架构，把三类信号整合进来：运动感知（关节当前状态）、记忆感知决策（记得之前做了什么）、物理感知（接触力、重力等）。这三路信号在 Transformer 里做交叉注意力，模型因此能同时「知道自己在做什么、做到哪一步了、现在受力多大」4。

68 人的大团队（RLWRLD 企业 + 韩国科学技术院 KAIST），是典型产学研合作规模。

作者/机构：Dongyoung Kim（项目负责人）等 68 人，RLWRLD + KAIST
Venue：arXiv 预印本 2605.03269，cs.RO/cs.AI/cs.LG，v2 2026-05-06
代码：github.com/RLWRLD/RLDX-1

5. HERMES++ — 自动驾驶的「一张图看懂前方」

原标题：HERMES++: A Unified Autonomous Driving World Model

自动驾驶系统通常把「看懂现在」和「预测未来」分成两个独立模块，各自优化，协调起来麻烦。HERMES++ 的答案是用一个统一模型把这两件事一起搞定5。

技术路线：以 BEV（鸟瞰图）表示为中心，把多个摄像头的视角压缩成统一的俯视坐标系——就像从上空看路口，车道线和障碍物的位置关系一目了然。LLM 负责理解场景语义（这是什么东西、会怎么动），Current-to-Future Link 模块把当前的几何信息和未来的预测结果关联起来，最后用联合几何优化确保两者自洽。在多个基准上超越专用方法，还是 ICCV 2025 论文 HERMES 的扩展升级版5。

作者/机构：Xin Zhou（一作）、Xiang Bai（IEEE Fellow，通讯）等，华中科技大学（HUST）+ Mach Drive + 香港大学（HKU）
Venue：arXiv 预印本 2604.28196，cs.CV，2026-04-30；ICCV 2025 论文扩展版
代码：github.com/H-EmbodVis/HERMESV2

6. PhysForge — 生成的 3D 模型，终于「物理正确」了

原标题：PhysForge: Physics-Aware 3D Asset Generation

生成一个好看的 3D 模型容易，生成一个「可以放进物理引擎直接用」的 3D 模型很难。PhysForge 解决的就是后者——接收 ICML 20266。

它把生成过程分两步：第一步让视觉语言模型（VLM）担任「物理建筑师」，分析对象的材料、功能和运动约束（这把椅子是木头的、腿可以折叠、但不能弯曲超过 90 度）；第二步用一个叫 KineVoxel Injection（KVI） 的机制把这套「物理蓝图」注入扩散模型，生成几何形状的同时也生成运动参数。

配套还发布了 PhysDB 数据集，收录 15 万个 3D 资产，每个都有四级物理标注6。对游戏、仿真、机器人仿真领域来说，这个数据集本身价值不低。

作者/机构：Yunhan Yang、Chunshi Wang、Junliang Ye（共同一作），HKU MMLab + 腾讯混元 + 浙江大学 + 清华大学 + 上海交通大学 + 北京航空航天大学
Venue：ICML 2026（已接收），arXiv 2605.05163
代码：github.com/HKU-MMLab/PhysForge

🟡 第二梯队：热度 5–30 upvotes

7. D-OPSD — 扩散模型的「边工作边学新东西」

原标题：D-OPSD: On-Policy Self-Distillation for Diffusion Models

图像/视频生成模型通常是训好之后「固定」的，想让它学新风格得重新微调，而且容易把原来的能力忘掉——这叫「灾难性遗忘」，行话是 catastrophic forgetting。D-OPSD 提出了一种叫 on-policy self-distillation 的训练方案7。

核心思路：模型同时扮演「老师」和「学生」。用模型自己跑出来的结果（on-policy rollout）作为训练目标，而不是依赖静态数据集或独立的教师模型，让模型不断把自己当前的知识「蒸馏」给自己的下一版本。这样做的优势是：新概念/新风格可以持续注入，同时少步推理（比如 4 步出图）的能力不受影响7。

作者/机构：Dengyang Jiang（一作）等 12 人，香港科技大学 + 阿里巴巴 Z-Image Team + UCSD + 香港中文大学
Venue：arXiv 预印本 2605.05204，cs.CV
代码：github.com/vvvvvjdy/D-OPSD

8. BRIGHT-Pro — 给「会推理的搜索」打一张成绩单

原标题：BRIGHT-Pro: Rethinking Reasoning-Intensive Retrieval

现有搜索（检索）模型的评估方法有个问题：它们用的指标，看不出模型在需要多步推理的复杂问题上表现如何。BRIGHT-Pro 填的就是这个空——ACL 2026 录用8。

耶鲁 NLP 团队构建了专家标注基准：每个查询对应多角度的「黄金证据」，而不只是一条标准答案。在静态搜索（给你一个文档库）和 Agentic 搜索（模型自主决定搜什么）两种协议下分别评估。发现：不同模型在标准指标上看起来差不多，但实际行为差异很大——有的模型在复杂推理问题上会反复检索同类文档，根本没在进步8。

同时他们合成了训练语料 RTriever-Synth，微调出的 RTriever-4B 显著优于基础模型。

作者/机构：Yilun Zhao（一作）等 6 人，耶鲁大学（Yale NLP）
Venue：ACL 2026（CCF-A）
代码：github.com/yale-nlp/Bright-Pro

9. LIVEditor (ISA) — 视频编辑快 60%，质量几乎不掉

原标题：LIVEditor: Efficient In-Context Video Editing via In-context Sparse Attention

基于示例的视频编辑（In-Context Learning，ICL）模型，最大瓶颈是注意力计算量随视频长度指数增长——帧数翻倍，计算量翻好几倍。LIVEditor 提出 In-context Sparse Attention（ISA），是首个「近无损」的经验稀疏框架9。

思路：注意力模块不需要每帧都和所有其他帧算关系，只要保留关键的跨帧关联就够了。ISA 让模型自己学会「哪些位置值得关注」，把不重要的注意力连接稀疏掉，延迟降低约 60%，而质量在多个基准上反而超过了原来的 SOTA。配套还发布了 170 万高质量视频编辑对数据集，接收于 ICML 20269。

代码暂未公开，但数据集的公开时间值得关注。

作者/机构：Shitong Shao（一作）等 7 人，香港科技大学（广州）
Venue：ICML 2026（CCF-A）
代码：待公开

10. JoyAI-Image — 京东的「一个模型，看图生图都行」

原标题：JoyAI-Image: Awaking Spatial Intelligence in Multimodal Large Language Model

理解图片和生成图片，通常是两个截然不同的模型。JoyAI-Image 做了一件看起来很难的事：把这两种能力装进一个模型10。

京东未来研究院的方案：把「空间增强的多模态大语言模型（MLLM）」和「多模态扩散 Transformer」耦合在一起。MLLM 负责理解空间关系（这张图里的椅子在桌子的左边还是右边），扩散 Transformer 负责生成和编辑。两者共用空间表示，信息可以双向流动。

在视觉理解、文生图、长文本图片渲染（比如在图上渲染一段复杂文字）、指令引导编辑四个任务上都达到了 SOTA 或有竞争力的结果10。GitHub 上已有 2.1k Stars。

作者/机构：Lin Song（一作）、Nan Duan（通讯）等 19 人，京东未来研究院（JD）
Venue：arXiv 预印本 2605.04128，cs.GR/cs.AI/cs.CV/cs.LG
代码：github.com/jd-opensource/JoyAI-Image

11. SkillFormer/PATS/ProfVLM — 用 AI 给运动员的动作打分

原标题：SkillFormer, PATS, and ProfVLM: Parameter-Efficient Multi-View Proficiency Estimation

教练评估运动员动作质量，靠的是经验和直觉。AI 能做这件事吗？这篇论文一口气提了三个方法，都针对 Ego-Exo4D 基准——这个数据集包含从主视角（运动员视角）和第三视角同时拍摄的技能练习视频11：

SkillFormer：判别式架构，直接预测熟练程度分级
PATS（改进时间采样）：优化视频帧的采样策略，让模型「看到」关键动作瞬间
ProfVLM：把熟练度评估转化为语言生成任务，输出带解释的评分

最亮的点：三个方法用的参数都不多，但在 Ego-Exo4D 上以最多 20 倍更少的参数、3 倍更少的训练轮次达到了新 SOTA11。

作者/机构：Edoardo Bianchi（一作）、Antonio Liotta，意大利博尔扎诺自由大学
Venue：arXiv 预印本 2605.03848，cs.CV
代码：SkillFormer：github.com/EdoWhite/SkillFormer；PATS/ProfVLM 代码待公开

12. APEX — 预测一首 AI 生成的歌会不会火

原标题：APEX: AI Music Popularity Prediction

Suno 和 Udio 每天生成的歌曲数量惊人，但什么样的 AI 音乐会受欢迎？APEX 是第一个专门研究这个问题的大规模框架12。

数据规模不小：Suno + Udio 平台上超过 21.1 万首歌、约 1 万小时音频。APEX 不只预测「播放量高不高」，而是同时建模五个感知质量维度（旋律性、节奏感、人声质量、情感表达、整体完成度），然后把流行度预测和质量评估联合训练——因为一首歌要火，这几个维度通常得一起到位。

底层用的是 MERT 预训练音频编码器（冻结权重），在 Music Arena 数据集上展示了不错的跨平台泛化能力12。

作者/机构：Jaavid Aktar Husain（一作）、Dorien Herremans（通讯），新加坡科技设计大学（SUTD）AMAAI Lab
Venue：arXiv 预印本 2605.03395，cs.SD/cs.AI/cs.LG/cs.MM
代码：github.com/AMAAI-Lab/apex

🔵 第三梯队：热度 ≤2 upvotes（但值得关注）

13. ResRL — 「用错误案例的反面」提升 LLM 数学推理

原标题：ResRL: Negative Sample Projection Residual Reinforcement Learning

强化学习训练 LLM 推理时，负样本（错误答案）通常直接丢掉，或者反向传播负梯度。ResRL 提了个更细致的处理方式，这篇论文进了 ICML 202613。

想象一下：一道题做错了，不是「这题我不会，全部反着记」，而是「我在哪一步偏了？把偏离的方向压回来就好，别的部分不动」。ResRL 的做法类似：把负样本的 token 隐藏表示投影到一个低秩子空间，用投影残差（偏离量）来调整梯度，只纠正「出错的方向」，保留其他方向的多样性。

效果：数学推理 Avg@16 提升 9.4%，Pass@128 提升 7.0%13。

作者/机构：Zihan Lin（一作）等 9 人，中国科学院自动化研究所（CASIA）
Venue：ICML 2026（CCF-A，Poster）
代码：github.com/1229095296/ResRL

14. DiGSeg — 用「图像生成模型」来做图像分割

原标题：DiGSeg: Diffusion as a Generic Segmentation Learner

扩散模型（Stable Diffusion 那类）通常被用来生成图片，很少有人想到用它来做分割（把图片里的每个像素归类）。DiGSeg 就是这个反常识的尝试14。

思路：扩散模型在预训练时已经「看懂」了大量图片的结构——它能生成一只猫，说明它「知道」猫是什么形状。DiGSeg 把这种视觉理解能力转化为分割能力：在潜空间里注入语言特征（CLIP 文本编码），让模型根据「找出猫」这个指令标出对应区域。不需要为医学图像、遥感图像、农业图像分别设计专用架构，一个模型跨领域迁移14。

代码暂无公开仓库，项目主页 404，关注后续更新。

作者/机构：Haoxiao Wang（一作）等 11 人，浙江大学、华南理工大学、南京大学、北京大学
Venue：arXiv 预印本 2604.24575，cs.CV
代码：暂未公开

15. MedSkillAudit — 给医学 AI Agent 的「上岗资格考试」

原标题：MedSkillAudit: A Skill Audit Framework for Medical Research Agents

AI Agent 在医疗领域被部署前，怎么确认它「真的会做这件事」？MedSkillAudit 提出了一套针对医学研究 Agent 的技能审计框架15。

具体：在 75 项技能上评估 Agent 的发布就绪度（能不能安全上线用）。评估维度包括准确率、一致性、可解释性等。系统与专家标注的一致性（ICC 值）达到 0.449，比人类专家之间的一致性（0.300）还高——说明这套审计框架本身比人更稳定。

一个让人警惕的发现：57.3% 的技能低于「Limited Release（有限上线）」的及格线15。一半以上的 Agent 技能没达到最低上线标准，这个结论比任何 benchmark 刷分的消息都让人清醒。

作者/机构：Yingyong Hou（一作）、Huimei Wang（通讯）等 13 人，AIPOCH-AI
Venue：arXiv 预印本 2604.20441，cs.AI
代码：github.com/aipoch/medical-research-skills（531 Stars）

16. When to Think, When to Speak (SxS) — LLM 何时「出声」更好？

原标题：When to Think, When to Speak: Side-by-Side Reasoning for LLMs

现在的「思维链」模型（如 o1、DeepSeek-R1）有个特点：先想半天，想完再给答案。这在需要深思熟虑的问题上很好，但在简单问题上纯属浪费——用户等了几秒，模型才输出「1+1=2」16。

SxS（Side-by-Side）框架的思路：不把推理和输出分为先后两个阶段，而是交错进行——推理一部分、输出一部分、再推理、再输出。这样用户能更早看到回答的开头，同时模型还在继续深化推理。

实现上用了两阶段训练：先用「蕴涵对齐的交错轨迹」做 SFT（监督微调），再用 RL 进一步优化「什么时候说话」这个决策。在 Qwen3-30B-A3B 和 Qwen3-4B 上验证，在准确率和「用户看到第一个 token 的延迟」之间取得了更好的权衡——ICML 202616。

作者/机构：Jiaqi Wei（一作/通讯）等 8 人
Venue：ICML 2026（CCF-A）
代码：论文承诺开源，链接待发布

17. TT4D — 乒乓球运动的「4D 慢镜头重建」

原标题：TT4D: 4D Reconstruction of Table Tennis

乒乓球轨迹追踪在摄影机镜头里极难处理：球速快、球小、高速旋转时在 2D 画面里几乎看不清。TT4D 的方案名叫 Lift-First 管线——接收 ACM Multimedia 202617。

传统方法先在 2D 里追踪轨迹再猜 3D 位置，容易在快速移动中丢球。Lift-First 反过来：直接把「还没分割干净的 2D 球迹」升维到 3D，在 3D 域里再做时间分割（判断哪个时间点是落点、哪个是弹起）。

配套数据集：超过 140 小时的多模态乒乓球录像，附带 3D 球位置、球旋转、时间分割和 3D 人体网格标注——是这类研究目前公开规模最大的数据集之一17。

代码和数据集待发布，前序工作 TT3D 已开源可参考。

作者/机构：Nima Rahmanian（一作，UC Berkeley）等 6 人，加州大学伯克利分校 + 奥格斯堡大学 + 图宾根大学
Venue：ACM Multimedia 2026（CCF-A）
代码：待发布；前序 TT3D：github.com/cogsys-tuebingen/tt3d

横向小结：今天值得关注的三个趋势

视频生成到了新阶段。 Stream-R1 和 Stream-T1 同天上榜，出自同一个 USTC + FrameX.AI 团队，分别从训练期和推理期两个角度优化流式视频生成。两篇合在一起，基本覆盖了「如何让视频生成既稳又可控」的完整路径，适合做视频生成的团队优先读。

顶会论文正在「接地气」。 六篇顶会收录论文（ICML、ACL、ACM MM 2026）里，有四篇直接针对工程问题（视频编辑延迟、检索评估、推理时机控制、LLM 推理梯度），不是纯理论贡献。这个趋势在近几年越来越明显。

机器人操控的量化标准越来越严格。 RLDX-1 拿 86.8% 成功率和竞品 40% 直接对比，MedSkillAudit 给 AI Agent 上岗前做技能审计——行业正在从「能做」向「做得多稳」迁移。这对产品团队是个提醒：benchmark 数字好看不够，真实环境的鲁棒性才是护城河。

封面图：AI 生成