HuggingFace 论文日报 · 2026 年 6 月 4 日

今天 HuggingFace trending 榜单涌现出一批很有意思的工作。我选了 5 篇按热度排序——从 NVIDIA 发布的超级大模型到「AI 视频生成怎么才能生成 24 小时不重样」，覆盖了世界模型、AI 研究 Agent 可靠性、图像生成加速、无限视频和一步视频生成几个方向。

01 · Cosmos 3：NVIDIA 的「全感知世界模型」

热度：今日第 1 · 42 upvotes · NVIDIA · 预印本（arXiv:2606.02800，6 月 1 日）

huggingface.cohttps://huggingface.co/papers/2606.02800외부 링크

콘텐츠 카드를 불러오는 중…

一句话解释：NVIDIA 做了一个超大模型，能同时「看图、看视频、听声音、读文字、控制机器」——不是五个独立系统拼在一起，而是真正的同一套神经网络同时处理这五种信息。

背景：为什么这很难？

现有的 AI 模型大多是「专才」：GPT 主要处理文字，Stable Diffusion 生成图片，Sora 生成视频。让一个模型同时处理语言、图像、视频、音频和机器人动作序列，原来的做法是训练多个专门模型再拼接，但拼接意味着信息在模型之间传递时有损耗，而且系统越来越难维护。

他们怎么做的？

核心架构叫「Mixture of Transformers（专家混合 Transformer）」。你可以把它想象成一家公司有很多部门，但共用同一套内部系统——文字进来走文字部门，图片进来走图片部门，但背后的「操作系统」是统一的。这样的好处是不同模态的信息能互相理解，训练数据可以共用，模型也更容易扩展。

Cosmos 3 把四类能力统一进了这一套框架：

能力	以前需要	Cosmos 3
理解图片/视频中的内容	视觉语言模型（如 LLaVA）	✅ 统一
生成视频	专用视频生成模型（如 Sora）	✅ 统一
模拟物理世界	独立世界模拟器	✅ 统一
控制机器人动作	机器人策略网络	✅ 统一

结果怎么样？

在第三方评测机构 Artificial Analysis 的榜单上，Cosmos 3 的文生图和图生视频都被评为当时最好的开源模型。在机器人控制能力测评 RoboArena 上排名第一。代码和模型权重在 Linux Foundation 的 OpenMDW-1.1 许可下完全开放。

GitHub：github.com/nvidia/cosmos（8.68k stars）｜权重：huggingface.co/collections/nvidia/cosmos3

要不要深读：如果你研究多模态大模型、具身 AI 或机器人策略，这篇是今年最值得精读的技术报告之一。消融实验和架构细节都在 PDF 里，比摘要信息量大得多。

02 · DRIFT：AI 研究 Agent 错在哪一步？

热度：今日第 2 · 29 upvotes · 南京大学 NJU-LINK Lab · 预印本（arXiv:2606.02060，6 月 1 日）

huggingface.cohttps://huggingface.co/papers/2606.02060외부 링크

콘텐츠 카드를 불러오는 중…

一句话解释：专门分析「AI 研究 Agent 在推理过程中具体哪一步开始出错」——不只是看最终答案对不对，而是找到推理链上具体出错的那几句话。

背景：光看最终答案有什么问题？

现在的「Deep Research」类 Agent（比如 Perplexity Deep Research、OpenAI Deep Research）会搜索大量网页、做推理、然后给出答案。测评时大家通常只看最终答案对不对，但这忽略了一个关键问题：Agent 搜索的哪一步出了差错？它是搜到了假信息，还是搜到了真信息但推理时弄错了？这两种失败原因需要不同的修复方式。

他们怎么做的？

研究团队收集了 2790 条真实 Agent 推理轨迹（来自 2 个 Agent 框架 × 3 个基础模型 × 3 个测评基准），让专家用 AI 辅助的方式在推理链上标注出每一个「有害错误片段」，最终建立了 TELBench——1000 个实例的「错误定位基准」。

然后他们提出了 DRIFT 框架，核心逻辑如下：

追踪声明：把 Agent 的每一个结论性声明单独提取出来
找证据：在 Agent 自己的搜索轨迹里找这个声明有没有对应的支撑
标记错误：如果找不到支撑（无据声明）或者和轨迹中其他证据矛盾（冲突声明），就标记这个片段

结果怎么样？

在跨模型、跨框架的实验中，DRIFT 把「错误片段定位准确率」和「找到第一个错误的准确率」提升了最多 30 个百分点。

限制说明：DRIFT 只能发现「Agent 自己的推理链内部矛盾」（无据声明 + 声明互相冲突）。有一种错误它结构上看不到：Agent 搜到了一条假信息，然后正确地引用了这条假信息——这种「有据但错的声明」需要对原始搜索来源做独立核验，不在本文范围内。

项目地址：nju-link.github.io/DRIFT

要不要深读：如果你在做 Agent 可靠性评估、构建 RAG 系统或研究 LLM 幻觉，这篇提供了一个很实用的过程级评估框架。TELBench 数据集本身也是可用的研究资源。

03 · Qwen-Image-Flash：图片生成模型怎么「少步加速」不翻车

热度：今日第 3 · 20 upvotes · Qwen 团队（阿里巴巴） · 预印本（arXiv:2606.03746，6 月 2 日）

huggingface.cohttps://huggingface.co/papers/2606.03746외부 링크

콘텐츠 카드를 불러오는 중…

一句话解释：图像生成模型通常要跑几十步才能出图，「少步蒸馏」是让学生模型用几步甚至一步就能出图。这篇研究的不是蒸馏目标函数怎么设计，而是「训练配方」——数据怎么配、老师模型怎么用、多任务怎么混，这些因素同样至关重要。

背景：为什么「少步生成」这么重要？

扩散模型（Diffusion Model，Stable Diffusion 用的那类架构）原理是从噪声里一步步去噪，标准需要走 20-50 步。加速方法叫「知识蒸馏」——用原始的慢速「教师模型」来训练一个快速「学生模型」，让学生几步就能学到教师几十步的效果。但实际做起来发现，只关注蒸馏损失函数设计是不够的，训练细节同样决定成败。

他们发现了什么「反直觉」的现象？

论文明确说有「几个非显然行为（non-obvious behaviors）」，但没在摘要里列举——需要读正文才能拿到具体实验结果。以 Qwen-Image-2.0 为基础模型，他们系统研究了三个因素：

数据组合：训练数据里真实图片和合成图片的比例怎么配
教师引导：教师模型在蒸馏中的作用强度怎么控制
任务混合：文生图和图像编辑两个任务同时训练时怎么平衡

结果怎么样？

最终产物叫 Qwen-Image-Flash，在统一的文生图 + 图像编辑蒸馏路线上达到他们声称的 SOTA，但论文摘要没有给出具体量化指标数字——需要看论文主体表格。

审稿状态：预印本，未见会议接收信息。

要不要深读：如果你要做自己的扩散模型加速或知识蒸馏实验，这篇的训练配方研究角度很实用，能帮你避开一些工程坑。如果只关心用现成模型，可以等权重发布。

04 · Echo-Infinity：无限生成视频，而且是实时的

热度：18 upvotes · 来自京东未来技术学院 Echo Team · 预印本（arXiv:2606.04527，6 月 3 日）

huggingface.cohttps://huggingface.co/papers/2606.04527외부 링크

콘텐츠 카드를 불러오는 중…

一句话解释：能一直生成下去、不会出现画面不连贯的视频生成模型——作者展示了实时生成超过 24 小时（>130 万帧）的 demo，同时保持对历史内容的记忆。

背景：无限生成视频为什么难？

自回归视频生成（就像 GPT 逐词预测一样逐帧预测视频）面临两个核心问题：

记忆越用越贵：视频越来越长，需要记住的历史帧越来越多，计算量随长度线性增长，长到一定程度就撑不住了
越生越烂：每一帧都是基于前一帧预测的，误差会累积——就像复印一张纸再复印复印件，越来越模糊

他们怎么解决的？

两个关键设计：

可演化记忆查询（Memory Query）：灵感来自人类记忆的「记忆巩固」机制——短期记忆里的东西不是简单丢弃，而是被压缩整合进长期记忆。Echo-Infinity 用一组可学习的参数（Memory Query）来动态压缩、摘要历史帧，压缩比例可以随意调整，而且计算量固定不随视频长度增加。

统一相对位置编码（Unified Relative RoPE）：解决了「训练时见过的视频最长 N 帧，推理时要生成 10N 帧」的外推问题。方法是把最新的帧 ID 始终控制在模型预训练见过的最大 ID 范围内，让时间轴「相对化」而不是绝对累计。

结果怎么样？

在短视频和长视频生成基准上都达到 SOTA。据作者称是首个展示 24 小时（>130 万帧）实时连续生成 demo 的工作——长度和实时性两个目标同时达成，这是技术上的新节点。

项目地址：echo-team-joy-future-academy-jd.github.io/Echo-Infinity

要不要深读：如果你研究视频生成、长序列建模或位置编码外推，Memory Query 的设计思路值得深入看。

05 · AAD-1：一步生成视频，不再「定格」

热度：10 upvotes · 上海交通大学 AutoLab · 预印本（arXiv:2606.03972，6 月 2 日）

huggingface.cohttps://huggingface.co/papers/2606.03972외부 링크

콘텐츠 카드를 불러오는 중…

一句话解释：现有的「一步就能生成视频」的方法经常产出画面不动的「死帧」，这篇论文用「不对称鉴别器 + 分阶段训练」解决了这个问题。

背景：一步视频生成为什么容易「定格」？

对抗蒸馏（Adversarial Distillation）是让模型只需一步推理就能生成视频的主流方法——速度极快，但有两个顽固问题：

运动崩塌（Motion Collapse）：模型学会了「偷懒」，发现生成静止画面比运动画面更不容易被鉴别器识破，于是倾向于输出几乎不动的视频
训练不稳定：学生模型和教师模型分布差距太大，训练一开始就不稳定

他们怎么解决的？

非对称架构：把生成器（Generator）和鉴别器（Discriminator）做成不对称的。生成器还是因果注意力（只看过去的帧），但鉴别器改为双向注意力——它能同时看视频的全部帧，对整段视频给出一个整体真实度评分。这样鉴别器更容易发现「前几秒还好，后面突然停住了」这类时序上的不一致，从而有效惩罚运动崩塌。

分阶段训练：先用分布匹配让学生模型和教师模型的输出分布「大致对齐」，再开始对抗训练。相当于先让学生在考试前把基础题做熟，再接受严格的模拟考，而不是一上来就进入高强度对抗。

结果怎么样？

在 VBench（视频生成综合评测基准）上达到一步自回归视频生成的 SOTA。

项目地址：aad-1.github.io

要不要深读：如果你研究视频生成加速或对抗训练稳定性，非对称鉴别器这个设计思路可以直接迁移到其他生成模型。

今日一览

论文	机构	方向	Upvotes
Cosmos 3	NVIDIA	全模态世界模型	42
DRIFT	南京大学	AI Agent 可靠性	29
Qwen-Image-Flash	阿里巴巴 Qwen	图像生成加速	20
Echo-Infinity	京东未来学院	无限视频生成	18
AAD-1	上海交通大学	一步视频生成	10

所有论文均为预印本，审稿状态待后续核实。

数据来源：HuggingFace Daily Papers · 2026-06-04

HuggingFace 论文日报 · 2026.06.04

HuggingFace 论文日报 · 2026 年 6 月 4 日

01 · Cosmos 3：NVIDIA 的「全感知世界模型」

02 · DRIFT：AI 研究 Agent 错在哪一步？

03 · Qwen-Image-Flash：图片生成模型怎么「少步加速」不翻车

04 · Echo-Infinity：无限生成视频，而且是实时的

05 · AAD-1：一步生成视频，不再「定格」

今日一览