HuggingFace 论文日报 · 2025/05/20

今日 HuggingFace 共有 11 篇论文上榜，本期精选其中 6 篇，覆盖大模型训练、推理加速、视频生成、视觉骨干网络、三维地球生成和词嵌入更新六个方向，逐一用大白话讲清楚每篇在解决什么问题、怎么解决的、有没有用。

1. GSPO：让大模型强化学习更稳、更快

论文：Group Sequence Policy Optimization 1

一句话：训练大模型「自我提升」（强化学习阶段）时，GSPO 换了一种更合理的方式来衡量「现在的模型和旧版本有多大差距」，结果训练更稳定、效果更好。

为什么这件事难做

当一个大模型完成了基础训练之后，还需要用强化学习来进一步提升它的推理能力——简单说就是「做题、看对错、奖罚调整」。目前最流行的方法 GRPO 在计算「新旧模型差距」时，是一个字一个字（token 级别）地算重要性权重，这会造成权重分布忽高忽低，容易把训练搞得不稳定，在参数量巨大的混合专家（MoE）模型上尤其明显。

GSPO 怎么做

GSPO 的核心改动只有一个：把计算粒度从「单个字」升级到「整句回答（序列）」。也就是说，它不再关心每个字的权重，而是把整条回答作为一个整体来衡量新旧差距，在序列层面完成裁剪和奖励分配。这样权重就变得平滑了，训练过程自然稳定下来。

结果怎样

GSPO 已经落地到 Qwen3 系列模型的训练中，作者报告训练效率和最终性能均优于 GRPO，MoE 模型的训练崩溃问题也得到了解决。

2. MUR：让大模型「想得少一点」也能答对

论文：Momentum Uncertainty guided Reasoning for Large Language Models 2

一句话：大模型做推理时经常「过度思考」，浪费了大量计算。MUR 受物理学动量概念启发，让模型实时感知「自己有多确定」，在确定的地方少想、不确定的地方多想，不用额外训练。

什么是「过度思考」

当前强大的推理模型（比如 o1、DeepSeek-R1 类）会在给出答案之前生成很长的「思维链」，但很多时候这条链条里充满了无用的重复内容，对最终答案没有帮助，白白消耗算力和时间。

MUR 的逻辑

MUR 引入了一个「动量不确定性」指标——每一步推理时，模型会估计自己当前有多不确定。如果不确定性高，说明这里需要深入思考；如果不确定性低且「动量稳定」（连续几步都很确定），就直接提前收尾。整个过程不需要重新训练模型，推理阶段直接插入即可。

关键优势

不需要额外训练这一点非常实用——现有的任何推理模型都可以直接套用，不用改动权重。

3. Captain Cinema：给 AI 一个剧本，它来拍短片

论文：Captain Cinema: Towards Short Movie Generation 3

一句话：输入一个故事梗概，自动生成一段有完整叙事弧的短片——不是单个镜头，而是多镜头、有起承转合的完整短视频。

现有方法的短板

目前主流 AI 视频生成工具（比如 Sora、Kling、Wan 等）擅长生成单个漂亮的视频片段，但让它们生成「长达几分钟、人物和场景连贯一致、有故事逻辑」的短片，质量就会大幅下降，主要因为没有全局叙事约束。

Captain Cinema 的两步走

第一步叫「自顶向下关键帧规划」：先用文本生成一系列关键帧图片，这些图片覆盖整个故事的关键节点，确保人物长相、场景风格在全片一致。

第二步叫「自底向上视频合成」：把关键帧送入一个支持长上下文的视频合成模型，在关键帧之间生成动态内容，把静态图片「填充」成连贯的视频片段。

意义

这套框架把「视频内容一致性」和「时序动态生成」解耦成两个独立步骤分别优化，是当前 AI 视频生成向「叙事级」迈进的一次值得关注的尝试。

4. EarthCrafter：AI 能生成 600×600 米真实地形了

论文：EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion 4

一句话：给定一段语义描述（比如「城市工业区」「山地农田」），自动生成面积达到 600×600 米的、带有三维几何结构和真实纹理的地球表面。

难在哪

3D 内容生成一直是 AI 生成领域的老大难——一般的 3D 生成方法只能处理单个物体（一把椅子、一辆车）。把尺度扩大到地理级别（几百米的城市地块），数据量、计算量和几何复杂度全都飙升，之前没有可行方案。

两个关键创新

第一个在数据端：作者构建了 Aerial-Earth3D，目前最大的三维航拍数据集，包含 5 万个场景、4500 万帧 Google Earth 图像，每个场景都标注了深度、法向量和语义分割。有数据才能训练。

第二个在模型端：EarthCrafter 把「几何结构」和「表面纹理」分开生成。几何用稀疏 3D 体素表示，纹理用 2D 高斯点云（2DGS）表示，两个独立的扩散模型分别处理，大幅降低了计算成本。

应用场景

游戏地图生成、城市规划仿真、自动驾驶场景生成都是直接的落地方向。

5. Iwin Transformer：不要位置编码，也能看懂图像

论文：Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows 5

一句话：Iwin Transformer 用「交错窗口注意力 + 深度可分离卷积」的组合，让一个模块就能同时看到图像的远处和近处信息，不需要位置编码，也不需要像 Swin Transformer 那样两个模块叠在一起才能达到同等效果。

背景：视觉 Transformer 的老问题

把 Transformer 用于图像时，一个核心难题是「注意力范围」——原始 ViT 让每个像素都能看到整张图，但计算量是图像面积的平方，太贵了。Swin Transformer 的解法是只让每个像素看一个小窗口，再每隔一层「移动一下窗口」，用两层才能近似一次全局注意力，效率有所提升但结构较复杂。

Iwin 的解法

Iwin 在单个模块里同时用两种机制：注意力负责连接距离远的像素（看「整体」），深度可分离卷积负责连接相邻像素（看「细节」）。两者互补，一个模块就顶 Swin 的两个模块，而且不再需要位置编码——这意味着可以直接把在低分辨率上训练好的模型用到高分辨率图像上，无需重新训练。

表现

在 ImageNet-1K 图像分类任务上达到 87.4% top-1 准确率 5，在语义分割和视频动作识别上也表现出色。代码已开源。

6. 新版 GloVe：把词向量更新到 2024 年

论文：A New Pair of GloVes 6

一句话：把 2014 年的经典词向量模型 GloVe 用 2024 年的语料重新训练了一遍，修复了「covid」「ChatGPT」这类新词在旧版本中根本不存在的问题，还完整记录了数据版本和预处理流程。

GloVe 是什么

GloVe（Global Vectors for Word Representation）是 2014 年斯坦福推出的词嵌入方法，把每个单词映射成一个数字向量，相似语义的词向量距离更近。它虽然已被更复杂的模型（如 BERT）部分替代，但因为计算简单、可解释性强，至今仍在被广泛使用。

为什么需要更新

原版 GloVe 在 2014 年的语料上训练，没有记录具体使用了哪些数据、怎么预处理的，可复现性差。更重要的是，十年来语言在变——很多在 2014 年后才出现或流行起来的词（比如 covid、ChatGPT、NFT）在旧版本里根本没有词向量，下游应用遇到这些词就只能用「未登录词」处理，精度直接下降。

新版做了什么

用 2024 年版 Common Crawl 和 Wikipedia 语料重新训练
完整记录数据集版本、过滤规则、预处理步骤，确保可复现
词典覆盖了近年大量新词，减少了未登录词问题

对于不需要上下文感知能力（BERT 的强项）、只需要轻量词表示的下游任务，更新版 GloVe 是个低成本的直接升级选择。

数据来源：HuggingFace Daily Papers，抓取时间 2025-05-20。

HuggingFace 论文日报 · 2025/05/20：GSPO/MUR/Captain Cinema 等 6 篇精选