HuggingFace 每日论文解读 | 2026年5月7日:17篇 Trending Papers 全扫描

2026年5月7日 HuggingFace 共 17 篇论文登上 trending 榜,涵盖视频生成、多模态 Agent、机器人操控、自动驾驶等 9 大方向,6 篇已获顶会录用,14 篇有开源代码,逐篇通俗拆解助你快速决策是否精读。

研究速览

今天 HuggingFace trending 榜上线了 17 篇论文,其中 6 篇已拿到顶会 Offer(ICML/ACL/ACM MM 2026),最热两篇都来自同一个团队,方向都盯着「流式视频生成」——这个赛道正在快速升温。本期覆盖视频生成、多模态 Agent、机器人操控、自动驾驶、3D 资产、LLM 推理等九个方向,按热度分三档逐一拆解。

🔥 第一梯队:热度 ≥50 upvotes

1. Stream-R1 — 让 AI 视频生成「又好又稳」

原标题:Stream-R1: Reward Distillation for Streaming Video Generation
视频生成模型有个普遍痛点:质量不稳。同样的 prompt 跑几遍,结果差异很大——有时画面精细,有时糊成一片,文字也对不上。Stream-R1 的解法有点像「给模型请了个严格的质检老师」1
具体方法:它引入了一个叫 Reliability-Perplexity Aware Reward Distillation 的框架。不改模型结构,也不增加推理时的计算量,只在训练阶段加一个 Reward Model(奖励模型)来评估生成结果有多好,然后把这个「好坏信号」反向传给模型,动态调整不同训练样本的权重——好的多学,差的少学。听起来很直觉,但实现细节上有不少工程难度。
在视频质量、运动自然度、文本与画面对齐三个维度上,Stream-R1 都有显著提升。关键优势是部署友好:不用换模型、不用加服务器,训好直接用。

2. Stream-T1 — 推理阶段也能「多花时间换质量」

原标题:Stream-T1: Test-Time Scaling for Streaming Video Generation
Stream-R1 的姊妹工作,同一个 USTC + FrameX.AI 团队出品,但角度完全不同2。Stream-R1 是训练期优化,Stream-T1 是推理期优化——也就是说,模型训好之后,你愿意花多少算力,它就能给你多好的结果。
这个概念叫 Test-Time Scaling(测试时缩放),在语言模型里已经被 o1、DeepSeek-R1 等验证有效。Stream-T1 把它搬到了视频生成。它设计了三个模块:Stream-Scaled Noise Propagation(控制噪声传播方式)、Stream-Scaled Reward Pruning(剪掉差的候选分支)、Stream-Scaled Memory Sinking(缓解长视频的记忆漂移)。在 5 秒和 30 秒视频基准上,时序一致性、运动流畅度、帧级清晰度都有明显改善2
实际价值:给视频生成提供了一个「质量旋钮」——预算紧时快速出结果,预算够时多跑几步换精品。

HuggingFace 2026年5月7日 trending 论文分布
HuggingFace 2026年5月7日 trending 论文分布
正在加载统计卡片...

3. OpenSearch-VL — 开源版「会搜索的视觉 Agent」

原标题:OpenSearch-VL: A Fully Open-Source Multimodal Deep Search Agent
当你问 AI「这张图里写的药能治什么病?」——这不只是看图,还需要搜索、推理、再搜索。这就是多模态搜索 Agent 要干的活。OpenSearch-VL 是首个完全开源的实现方案3
它给模型配了 7 种「工具」:文本搜索、图像搜索、OCR(识别图中文字)、图片裁剪、锐化、超分辨率、透视校正。模型学会了根据问题自主决定用哪些工具、以什么顺序用。训练数据上,团队基于 Wikipedia 路径采样构建了两个数据集(SearchVL-SFT-36k 和 SearchVL-RL-8k),全部开放。训练算法叫 Fatal Perception GRPO,专门解决多轮交互中的关键感知错误。基于 Qwen3-VL 训练,在 7 个基准上平均提升超 10 分3
对要做多模态 Agent 的团队来说,这套数据 + 框架 + 训练配方全开源,是少见的可以直接复现和二次开发的起点。

4. RLDX-1 — 86.8% 成功率的机器人灵巧手

原标题:RLDX-1: A Dexterous Manipulation Policy for Humanoid Robots
让机器人手做精细操作(拧瓶盖、插插头、叠衣服)是机器人领域公认的最难问题之一。RLDX-1 在人形机器人 ALLEX 任务上达到了 86.8% 的成功率4,同条件下 π₀.₅ 和 GR00T N1.6(英伟达旗下 Isaac 团队的模型)都只有约 40%。
核心是一个叫 Multi-Stream Action Transformer(MSAT) 的架构,把三类信号整合进来:运动感知(关节当前状态)、记忆感知决策(记得之前做了什么)、物理感知(接触力、重力等)。这三路信号在 Transformer 里做交叉注意力,模型因此能同时「知道自己在做什么、做到哪一步了、现在受力多大」4
68 人的大团队(RLWRLD 企业 + 韩国科学技术院 KAIST),是典型产学研合作规模。
  • 作者/机构:Dongyoung Kim(项目负责人)等 68 人,RLWRLD + KAIST
  • Venue:arXiv 预印本 2605.03269,cs.RO/cs.AI/cs.LG,v2 2026-05-06
  • 代码github.com/RLWRLD/RLDX-1

5. HERMES++ — 自动驾驶的「一张图看懂前方」

原标题:HERMES++: A Unified Autonomous Driving World Model
自动驾驶系统通常把「看懂现在」和「预测未来」分成两个独立模块,各自优化,协调起来麻烦。HERMES++ 的答案是用一个统一模型把这两件事一起搞定5
技术路线:以 BEV(鸟瞰图)表示为中心,把多个摄像头的视角压缩成统一的俯视坐标系——就像从上空看路口,车道线和障碍物的位置关系一目了然。LLM 负责理解场景语义(这是什么东西、会怎么动),Current-to-Future Link 模块把当前的几何信息和未来的预测结果关联起来,最后用联合几何优化确保两者自洽。在多个基准上超越专用方法,还是 ICCV 2025 论文 HERMES 的扩展升级版5
  • 作者/机构:Xin Zhou(一作)、Xiang Bai(IEEE Fellow,通讯)等,华中科技大学(HUST)+ Mach Drive + 香港大学(HKU)
  • Venue:arXiv 预印本 2604.28196,cs.CV,2026-04-30;ICCV 2025 论文扩展版
  • 代码github.com/H-EmbodVis/HERMESV2

6. PhysForge — 生成的 3D 模型,终于「物理正确」了

原标题:PhysForge: Physics-Aware 3D Asset Generation
生成一个好看的 3D 模型容易,生成一个「可以放进物理引擎直接用」的 3D 模型很难。PhysForge 解决的就是后者——接收 ICML 20266
它把生成过程分两步:第一步让视觉语言模型(VLM)担任「物理建筑师」,分析对象的材料、功能和运动约束(这把椅子是木头的、腿可以折叠、但不能弯曲超过 90 度);第二步用一个叫 KineVoxel Injection(KVI) 的机制把这套「物理蓝图」注入扩散模型,生成几何形状的同时也生成运动参数。
配套还发布了 PhysDB 数据集,收录 15 万个 3D 资产,每个都有四级物理标注6。对游戏、仿真、机器人仿真领域来说,这个数据集本身价值不低。
  • 作者/机构:Yunhan Yang、Chunshi Wang、Junliang Ye(共同一作),HKU MMLab + 腾讯混元 + 浙江大学 + 清华大学 + 上海交通大学 + 北京航空航天大学
  • VenueICML 2026(已接收),arXiv 2605.05163
  • 代码github.com/HKU-MMLab/PhysForge

🟡 第二梯队:热度 5–30 upvotes

7. D-OPSD — 扩散模型的「边工作边学新东西」

原标题:D-OPSD: On-Policy Self-Distillation for Diffusion Models
图像/视频生成模型通常是训好之后「固定」的,想让它学新风格得重新微调,而且容易把原来的能力忘掉——这叫「灾难性遗忘」,行话是 catastrophic forgetting。D-OPSD 提出了一种叫 on-policy self-distillation 的训练方案7
核心思路:模型同时扮演「老师」和「学生」。用模型自己跑出来的结果(on-policy rollout)作为训练目标,而不是依赖静态数据集或独立的教师模型,让模型不断把自己当前的知识「蒸馏」给自己的下一版本。这样做的优势是:新概念/新风格可以持续注入,同时少步推理(比如 4 步出图)的能力不受影响7
  • 作者/机构:Dengyang Jiang(一作)等 12 人,香港科技大学 + 阿里巴巴 Z-Image Team + UCSD + 香港中文大学
  • Venue:arXiv 预印本 2605.05204,cs.CV
  • 代码github.com/vvvvvjdy/D-OPSD

8. BRIGHT-Pro — 给「会推理的搜索」打一张成绩单

原标题:BRIGHT-Pro: Rethinking Reasoning-Intensive Retrieval
现有搜索(检索)模型的评估方法有个问题:它们用的指标,看不出模型在需要多步推理的复杂问题上表现如何。BRIGHT-Pro 填的就是这个空——ACL 2026 录用8
耶鲁 NLP 团队构建了专家标注基准:每个查询对应多角度的「黄金证据」,而不只是一条标准答案。在静态搜索(给你一个文档库)和 Agentic 搜索(模型自主决定搜什么)两种协议下分别评估。发现:不同模型在标准指标上看起来差不多,但实际行为差异很大——有的模型在复杂推理问题上会反复检索同类文档,根本没在进步8
同时他们合成了训练语料 RTriever-Synth,微调出的 RTriever-4B 显著优于基础模型。

9. LIVEditor (ISA) — 视频编辑快 60%,质量几乎不掉

原标题:LIVEditor: Efficient In-Context Video Editing via In-context Sparse Attention
基于示例的视频编辑(In-Context Learning,ICL)模型,最大瓶颈是注意力计算量随视频长度指数增长——帧数翻倍,计算量翻好几倍。LIVEditor 提出 In-context Sparse Attention(ISA),是首个「近无损」的经验稀疏框架9
思路:注意力模块不需要每帧都和所有其他帧算关系,只要保留关键的跨帧关联就够了。ISA 让模型自己学会「哪些位置值得关注」,把不重要的注意力连接稀疏掉,延迟降低约 60%,而质量在多个基准上反而超过了原来的 SOTA。配套还发布了 170 万高质量视频编辑对数据集,接收于 ICML 20269
代码暂未公开,但数据集的公开时间值得关注。
  • 作者/机构:Shitong Shao(一作)等 7 人,香港科技大学(广州)
  • VenueICML 2026(CCF-A)
  • 代码:待公开

10. JoyAI-Image — 京东的「一个模型,看图生图都行」

原标题:JoyAI-Image: Awaking Spatial Intelligence in Multimodal Large Language Model
理解图片和生成图片,通常是两个截然不同的模型。JoyAI-Image 做了一件看起来很难的事:把这两种能力装进一个模型10
京东未来研究院的方案:把「空间增强的多模态大语言模型(MLLM)」和「多模态扩散 Transformer」耦合在一起。MLLM 负责理解空间关系(这张图里的椅子在桌子的左边还是右边),扩散 Transformer 负责生成和编辑。两者共用空间表示,信息可以双向流动。
在视觉理解、文生图、长文本图片渲染(比如在图上渲染一段复杂文字)、指令引导编辑四个任务上都达到了 SOTA 或有竞争力的结果10。GitHub 上已有 2.1k Stars。
  • 作者/机构:Lin Song(一作)、Nan Duan(通讯)等 19 人,京东未来研究院(JD)
  • Venue:arXiv 预印本 2605.04128,cs.GR/cs.AI/cs.CV/cs.LG
  • 代码github.com/jd-opensource/JoyAI-Image

11. SkillFormer/PATS/ProfVLM — 用 AI 给运动员的动作打分

原标题:SkillFormer, PATS, and ProfVLM: Parameter-Efficient Multi-View Proficiency Estimation
教练评估运动员动作质量,靠的是经验和直觉。AI 能做这件事吗?这篇论文一口气提了三个方法,都针对 Ego-Exo4D 基准——这个数据集包含从主视角(运动员视角)和第三视角同时拍摄的技能练习视频11
  • SkillFormer:判别式架构,直接预测熟练程度分级
  • PATS(改进时间采样):优化视频帧的采样策略,让模型「看到」关键动作瞬间
  • ProfVLM:把熟练度评估转化为语言生成任务,输出带解释的评分
最亮的点:三个方法用的参数都不多,但在 Ego-Exo4D 上以最多 20 倍更少的参数3 倍更少的训练轮次达到了新 SOTA11
  • 作者/机构:Edoardo Bianchi(一作)、Antonio Liotta,意大利博尔扎诺自由大学
  • Venue:arXiv 预印本 2605.03848,cs.CV
  • 代码:SkillFormer:github.com/EdoWhite/SkillFormer;PATS/ProfVLM 代码待公开

12. APEX — 预测一首 AI 生成的歌会不会火

原标题:APEX: AI Music Popularity Prediction
Suno 和 Udio 每天生成的歌曲数量惊人,但什么样的 AI 音乐会受欢迎?APEX 是第一个专门研究这个问题的大规模框架12
数据规模不小:Suno + Udio 平台上超过 21.1 万首歌、约 1 万小时音频。APEX 不只预测「播放量高不高」,而是同时建模五个感知质量维度(旋律性、节奏感、人声质量、情感表达、整体完成度),然后把流行度预测和质量评估联合训练——因为一首歌要火,这几个维度通常得一起到位。
底层用的是 MERT 预训练音频编码器(冻结权重),在 Music Arena 数据集上展示了不错的跨平台泛化能力12
  • 作者/机构:Jaavid Aktar Husain(一作)、Dorien Herremans(通讯),新加坡科技设计大学(SUTD)AMAAI Lab
  • Venue:arXiv 预印本 2605.03395,cs.SD/cs.AI/cs.LG/cs.MM
  • 代码github.com/AMAAI-Lab/apex

🔵 第三梯队:热度 ≤2 upvotes(但值得关注)

13. ResRL — 「用错误案例的反面」提升 LLM 数学推理

原标题:ResRL: Negative Sample Projection Residual Reinforcement Learning
强化学习训练 LLM 推理时,负样本(错误答案)通常直接丢掉,或者反向传播负梯度。ResRL 提了个更细致的处理方式,这篇论文进了 ICML 202613
想象一下:一道题做错了,不是「这题我不会,全部反着记」,而是「我在哪一步偏了?把偏离的方向压回来就好,别的部分不动」。ResRL 的做法类似:把负样本的 token 隐藏表示投影到一个低秩子空间,用投影残差(偏离量)来调整梯度,只纠正「出错的方向」,保留其他方向的多样性。
效果:数学推理 Avg@16 提升 9.4%,Pass@128 提升 7.0%13
  • 作者/机构:Zihan Lin(一作)等 9 人,中国科学院自动化研究所(CASIA)
  • VenueICML 2026(CCF-A,Poster)
  • 代码github.com/1229095296/ResRL

14. DiGSeg — 用「图像生成模型」来做图像分割

原标题:DiGSeg: Diffusion as a Generic Segmentation Learner
扩散模型(Stable Diffusion 那类)通常被用来生成图片,很少有人想到用它来做分割(把图片里的每个像素归类)。DiGSeg 就是这个反常识的尝试14
思路:扩散模型在预训练时已经「看懂」了大量图片的结构——它能生成一只猫,说明它「知道」猫是什么形状。DiGSeg 把这种视觉理解能力转化为分割能力:在潜空间里注入语言特征(CLIP 文本编码),让模型根据「找出猫」这个指令标出对应区域。不需要为医学图像、遥感图像、农业图像分别设计专用架构,一个模型跨领域迁移14
代码暂无公开仓库,项目主页 404,关注后续更新。
  • 作者/机构:Haoxiao Wang(一作)等 11 人,浙江大学、华南理工大学、南京大学、北京大学
  • Venue:arXiv 预印本 2604.24575,cs.CV
  • 代码:暂未公开

15. MedSkillAudit — 给医学 AI Agent 的「上岗资格考试」

原标题:MedSkillAudit: A Skill Audit Framework for Medical Research Agents
AI Agent 在医疗领域被部署前,怎么确认它「真的会做这件事」?MedSkillAudit 提出了一套针对医学研究 Agent 的技能审计框架15
具体:在 75 项技能上评估 Agent 的发布就绪度(能不能安全上线用)。评估维度包括准确率、一致性、可解释性等。系统与专家标注的一致性(ICC 值)达到 0.449,比人类专家之间的一致性(0.300)还高——说明这套审计框架本身比人更稳定。
一个让人警惕的发现:57.3% 的技能低于「Limited Release(有限上线)」的及格线15。一半以上的 Agent 技能没达到最低上线标准,这个结论比任何 benchmark 刷分的消息都让人清醒。

16. When to Think, When to Speak (SxS) — LLM 何时「出声」更好?

原标题:When to Think, When to Speak: Side-by-Side Reasoning for LLMs
现在的「思维链」模型(如 o1、DeepSeek-R1)有个特点:先想半天,想完再给答案。这在需要深思熟虑的问题上很好,但在简单问题上纯属浪费——用户等了几秒,模型才输出「1+1=2」16
SxS(Side-by-Side)框架的思路:不把推理和输出分为先后两个阶段,而是交错进行——推理一部分、输出一部分、再推理、再输出。这样用户能更早看到回答的开头,同时模型还在继续深化推理。
实现上用了两阶段训练:先用「蕴涵对齐的交错轨迹」做 SFT(监督微调),再用 RL 进一步优化「什么时候说话」这个决策。在 Qwen3-30B-A3B 和 Qwen3-4B 上验证,在准确率和「用户看到第一个 token 的延迟」之间取得了更好的权衡——ICML 202616
  • 作者/机构:Jiaqi Wei(一作/通讯)等 8 人
  • VenueICML 2026(CCF-A)
  • 代码:论文承诺开源,链接待发布

17. TT4D — 乒乓球运动的「4D 慢镜头重建」

原标题:TT4D: 4D Reconstruction of Table Tennis
乒乓球轨迹追踪在摄影机镜头里极难处理:球速快、球小、高速旋转时在 2D 画面里几乎看不清。TT4D 的方案名叫 Lift-First 管线——接收 ACM Multimedia 202617
传统方法先在 2D 里追踪轨迹再猜 3D 位置,容易在快速移动中丢球。Lift-First 反过来:直接把「还没分割干净的 2D 球迹」升维到 3D,在 3D 域里再做时间分割(判断哪个时间点是落点、哪个是弹起)。
配套数据集:超过 140 小时的多模态乒乓球录像,附带 3D 球位置、球旋转、时间分割和 3D 人体网格标注——是这类研究目前公开规模最大的数据集之一17
代码和数据集待发布,前序工作 TT3D 已开源可参考。
  • 作者/机构:Nima Rahmanian(一作,UC Berkeley)等 6 人,加州大学伯克利分校 + 奥格斯堡大学 + 图宾根大学
  • VenueACM Multimedia 2026(CCF-A)
  • 代码:待发布;前序 TT3D:github.com/cogsys-tuebingen/tt3d

横向小结:今天值得关注的三个趋势

视频生成到了新阶段。 Stream-R1 和 Stream-T1 同天上榜,出自同一个 USTC + FrameX.AI 团队,分别从训练期和推理期两个角度优化流式视频生成。两篇合在一起,基本覆盖了「如何让视频生成既稳又可控」的完整路径,适合做视频生成的团队优先读。
顶会论文正在「接地气」。 六篇顶会收录论文(ICML、ACL、ACM MM 2026)里,有四篇直接针对工程问题(视频编辑延迟、检索评估、推理时机控制、LLM 推理梯度),不是纯理论贡献。这个趋势在近几年越来越明显。
机器人操控的量化标准越来越严格。 RLDX-1 拿 86.8% 成功率和竞品 40% 直接对比,MedSkillAudit 给 AI Agent 上岗前做技能审计——行业正在从「能做」向「做得多稳」迁移。这对产品团队是个提醒:benchmark 数字好看不够,真实环境的鲁棒性才是护城河。

封面图:AI 生成

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。