HuggingFace 论文日报 · 2026-05-20

今日 HuggingFace trending papers 覆盖 6 篇：强化学习训练算法、推理效率优化、AI 视频生成、3D 地球建模、词向量更新，以及一个让机器「像人一样看东西」的视觉感知框架。每篇均附通俗解读，方便快速判断是否值得深入阅读。

1. GSPO：让大模型训练更稳、更快的新 RL 算法（Qwen3 同款）

来自：阿里巴巴 Qwen 团队 | 状态：预印本1

用一句话说清楚这篇论文在做什么： 大语言模型做「强化学习微调」时，有个核心操作是计算「新策略和旧策略有多大差别」来决定更新幅度。现有做法（GRPO）是把每个 token 单独算这个差值，但 token 太多、差异累积，训练容易不稳定。GSPO 改成按整个句子来算——整条回复打一个分，整体 clip、整体奖励。

打个比方：旧方法像是给一篇作文的每个字单独评分、单独扣分，字一多标准就乱了；新方法是给整篇作文打一个总分，节奏更稳。

关键结果：

和 GRPO 相比，训练效率更高、效果更好
混合专家模型（MoE）的 RL 训练明显稳定了——这类大模型以前用 RL 训练容易崩
简化了 RL 基础设施的设计难度
Qwen3 系列模型用的就是这套算法

值得关注的点：GSPO 不是一个独立研究，而是 Qwen3 发布后伴随技术报告公开的工业级算法，验证了「序列级重要性比值」在真实大规模训练中的可行性。

2. MUR：让大模型「想够了就停」，推理少用一半算力还更准

来自：西安交通大学、南洋理工大学等 | 状态：预印本2

背景问题：现在的「推理模型」（比如 DeepSeek-R1、Qwen3-Think）在做数学题时会先「内心独白」一大段，再给出答案。但研究发现，模型经常「想太多」——明明已经快到答案了，还在兜圈子，白白浪费计算资源。

MUR 的思路来自物理学中的「动量」概念：一个物体运动时有惯性，你需要积累一段时间才能判断它是真的在改变方向，还是只是小抖动。MUR 把这个思路用到了推理步骤上：

每一步推理结束后，评估「模型现在有多不确定」
用「动量」把历史的不确定性和当前的不确定性加权融合，平滑掉波动
如果「动量不确定性」低了，说明模型已经稳定了、知道答案了，就让它提前停

实验数据（在 MATH-500、AIME24、AIME25、GPQA-diamond 四个基准上测试，使用 Qwen3 1.7B/4B/8B）：

平均减少 超过 50% 的计算量
准确率反而提升了 0.62%–3.37%

准确率提升的原因：过度思考有时会让模型「想偏」，提前停下反而减少了错误。

3. Captain Cinema：从一段文字，生成一部短片

来自：约翰霍普金斯大学、字节跳动 Seed、斯坦福大学、香港中文大学 | 状态：预印本3

要解决的问题：现有 AI 视频生成主要做短片段（几秒），一旦要连续生成有完整故事的多场景视频，画面会前后矛盾——人物长相变了、场景跳变、故事不连贯。

Captain Cinema 的做法分两步：

第一步「自上而下的关键帧规划」：把故事大纲转化为一系列关键帧（静止画面），先把整个叙事的视觉主线锁定——人物长什么样、各个场景是什么风格——再展开细节。就像电影分镜，先有大图，再填细节。

第二步「自下而上的视频合成」：以关键帧为锚点，用视频模型填补中间的动态帧。模型支持长上下文学习，能跨多个场景保持连贯。

核心技术：训练时用了「交错训练策略」，把多模态扩散变换器（MM-DiT）改造成能处理多场景连续叙事的架构，并专门收集了一个「电影场景配对数据集」训练。

直白总结：这套方案把「AI 只能做短片段」的门槛往长故事推进了一大步，项目主页可以看效果演示：thecinema.ai

thecinema.ai

Captain Cinema 项目主页

AI 生成短片演示，从文字描述到连贯多场景视频

링크 미리보기를 불러오는 중…

4. EarthCrafter：生成任意地点的 3D 地球表面——规模达到千米级

来自：阿里巴巴 DAMO Academy、Hupan Lab、复旦大学 | 状态：预印本4

问题背景：现有 3D 生成模型（房间、人物、小物件）都在「小尺度」上运作。但如果你想生成整个城市街区、山地地形、上百平方公里的地球表面呢？规模一大，计算量爆炸，模型也不知道「真实的地球长什么样」。

EarthCrafter 的双重创新：

数据侧：团队自建了迄今最大的 3D 航拍数据集 Aerial-Earth3D，覆盖美国本土，包含 5 万个场景（每个 600m × 600m），共 4500 万帧多视角图像，每帧都带深度图、法线图、语义分割标注。

模型侧：把「形状」和「外观」分开处理。两个独立的稀疏 3D-VAE，一个压缩几何体素（地形结构），另一个压缩 2D 高斯 Splats（表面纹理）。再用条件感知的 Flow Matching 模型分别生成这两个部分，支持语义图引导、图像引导，或完全从零生成。

实验结果：在超大尺度地形生成上，效果明显优于现有方法。支持「给一张语义图，生成对应城市布局」和「完全无条件生成新地形」两种模式。

5. A New Pair of GloVes：10 年后，词向量终于更新了

来自：斯坦福 NLP 组 | 状态：预印本5

背景：GloVe（Global Vectors for Word Representation）是 2014 年发布的经典词向量模型，把每个词编码为一个数值向量，词义相近的词在空间中更靠近。十年来被广泛使用，但有个问题：2014 年的训练数据里没有「covid」「ChatGPT」「selfie」这些词，模型根本不认识它们。

这篇论文做了什么：斯坦福 NLP 组（GloVe 的原作者团队）用 2024 年的数据重新训练了 GloVe，包括维基百科、Gigaword 和 Dolma 数据集的子集，并仔细记录了数据版本和预处理步骤（原版 2014 根本没有这些文档）。

评估结果：

词汇覆盖更全，新词、非西方专名表现明显更好
词类比、词相似度等经典任务上，效果与原版相当
在近期命名实体识别（NER）任务上（尤其是非西方新闻语料），表现优于原版

适用场景：不需要大模型全套装备、只需要轻量词向量的下游任务（信息检索、可解释性研究、资源受限场景），这次更新是一次实用的工具升级。

6. SpelkeNet：让机器像婴儿一样感知「哪些东西是一体的」

来自：斯坦福大学、OpenAI、Noetik Inc. | 状态：预印本6

一个认知科学背景：发展心理学家 Elizabeth Spelke 发现，人类婴儿在学会任何物体概念之前，就已经能判断「这些部分是同一个东西」——依据是它们在外力作用下会一起运动。这叫「Spelke 物体」概念，和语义无关，纯粹基于物理因果关系。

现有 CV 的问题：主流视觉分割（SAM、YOLO 等）是语义驱动的——「这是猫」「那是桌子」——分割结果依赖预设的物体类别。但现实中，一把椅子的四条腿是否算「一个东西」，取决于你想对它们做什么，而非它们「叫什么」。

这篇论文的做法：

构建 SpelkeBench 基准数据集，标注真实图片中的「Spelke 物体段」
训练 SpelkeNet：一个预测「如果我用力戳图片某个位置，场景里哪些部分会随之运动」的视觉世界模型
通过「虚拟戳」多个位置，聚合运动相关性，得到 Spelke 分割结果

结果：SpelkeNet 在 SpelkeBench 上超越了 SAM（SegmentAnything），且在 3DEditBench 物理操控基准上，用 SpelkeNet 的分割结果替代语义分割后，多个操控模型的表现都提升了。

直白意义：如果你在做机器人操控、物理仿真、3D 场景理解，SpelkeNet 提供了一种不依赖物体类别知识的感知方式，特别适合「见过没见过都能处理」的开放世界场景。

今日速览

论文	核心贡献	机构
GSPO	序列级 RL 算法，稳定 MoE 训练，Qwen3 实采	阿里 Qwen 团队
MUR	动量不确定性引导推理，计算减半、准确率涨	西安交大、南洋理工等
Captain Cinema	文字 → 多场景连贯短片，关键帧锚定叙事	JHU、字节 Seed、斯坦福
EarthCrafter	千米级 3D 地球表面生成，形状/纹理解耦	阿里 DAMO、复旦
GloVe 2024	十年后词向量更新，支持新词和非西方专名	斯坦福 NLP
SpelkeNet	物理因果驱动的视觉分割，超越 SAM	斯坦福、OpenAI

HuggingFace 论文日报 · 2026-05-20

1. GSPO：让大模型训练更稳、更快的新 RL 算法（Qwen3 同款）

2. MUR：让大模型「想够了就停」，推理少用一半算力还更准

3. Captain Cinema：从一段文字，生成一部短片

Captain Cinema 项目主页

4. EarthCrafter：生成任意地点的 3D 地球表面——规模达到千米级

5. A New Pair of GloVes：10 年后，词向量终于更新了

6. SpelkeNet：让机器像婴儿一样感知「哪些东西是一体的」

今日速览

참고 출처

Captain Cinema 项目主页