HuggingFace 论文日报 · 2025/05/22

今天 HuggingFace 上跑出来的 trending 论文覆盖了大模型训练算法、推理效率、AI 视频生成、视觉生成和 3D 地球建模五个方向，几个结果颇有意思，值得挑出来讲清楚。

GSPO：阿里 Qwen 团队用它训练了 Qwen3

一句话版本：训练大模型的强化学习算法从「按词算奖励」升级到「按句算奖励」，训练更稳、效果更好。

现在很多大模型用强化学习做最后一步「对齐」训练——让模型学会更符合人类偏好的回答方式。之前最流行的算法叫 GRPO，它的做法是把模型生成的每个词单独打分，看这个词出现的概率相比基准提高了多少，然后据此调整训练方向。

GSPO（Group Sequence Policy Optimization）把这个逻辑反过来想了：一句话是不是好，应该看整句话，而不是看里面每个词。 它把重要性打分从词级别提升到序列级别——整句话生成得好，整句一起奖励；整句话跑偏了，整句一起惩罚。

这个改动对「混合专家模型」（MoE，一种让模型又大又高效的架构）尤其重要。过去 MoE 的强化学习训练容易出现数值不稳定，GSPO 的序列级操作让这个问题明显改善。

结果：训练效率和模型性能都超过 GRPO，Qwen3 系列模型背后就跑的是这套算法。1

MUR：让大模型「想得更少」但答得更准

一句话版本：借鉴物理学里「动量」的概念，让大模型在推理时只在真正不确定的地方多花时间，其他地方快速跳过。

近两年「思维链」推理很火——让模型在给出答案前先想一遍，往往效果更好。但随之而来的问题是「过度思考」：模型哪怕面对简单问题也绕很多圈子，白白浪费算力。

MUR（Momentum Uncertainty-guided Reasoning）的做法是：在推理过程中实时追踪每一步的「不确定性」，只有不确定性高的步骤才分配更多思考资源。 这里借用了物理里「动量」的概念——之前几步的不确定性有多大，会「带动」下一步的资源分配，而不是每步独立判断。

研究者还设计了一个叫 gamma-control 的参数，只需要调一个数就能控制整体推理的「松紧度」，不需要重新训练模型。

实验数据：在 MATH-500、AIME24、AIME25、GPQA 四个数学和科学推理基准上，用 Qwen3 1.7B/4B/8B 测试，MUR 平均减少超过 50% 的计算量，同时准确率反而提升了 0.62–3.37 个百分点。2

Captain Cinema：输入故事简介，输出短片

一句话版本：ByteDance 和约翰霍普金斯做的系统，给它一段故事文字，它能生成视觉连贯、情节一致的短电影。

AI 生成单段视频现在已经不算难，难的是生成「多场景、长时间、视觉统一」的作品——角色从这个镜头走到下一个镜头时，脸不能变，灯光风格不能突变，故事线不能断。

Captain Cinema 的解法分两步走：

自上而下的关键帧规划：先用语言模型理解整个故事，然后生成一组「关键帧」，定义整部短片的叙事节奏和主要视觉节点——相当于先画好分镜板。
自下而上的视频合成：关键帧确定后，再用视频模型填充帧与帧之间的动态画面，生成流畅的时间轴。

为了让视频模型能「记住」之前的画面，研究者专门为多模态扩散 Transformer（MM-DiT）设计了交错训练策略，让它能在长上下文视频数据上保持一致性。

实验证明生成质量和效率都比直接端到端生成要好。3

Captain Cinema 论文标题页，来自 ByteDance Seed 和约翰霍普金斯大学 — Captain Cinema 方法概览 3

TTS-VAR：花更少算力，图生成质量更高

一句话版本：不用重新训练图像生成模型，只在推理时加一套「搜索机制」，让模型挑出更好的结果。

视觉自回归模型（VAR）是一类图像生成模型，它生成图像的方式有点像猜谜——先生成大致轮廓，再逐步填细节（由粗到细）。

TTS-VAR 把这个过程想象成一个路径搜索问题：模型每次生成时其实面临很多可能的「选择」，传统做法是随便挑一条走，而 TTS-VAR 让模型同时探索多条路径，然后按质量筛选。

具体有两个机制：

粗尺度：用聚类算法保留结构多样性，确保候选路径不会都长一个样
细尺度：用一个融合了历史生成信息的「潜力评分」，优先保留最有可能出好结果的候选

在 Infinity 模型上测试，GenEval 得分从 0.69 提升到 0.75，提升幅度 8.7%，而且不需要额外训练。4

EarthCrafter：用 AI 生成真实感 3D 地球地形

一句话版本：阿里 DAMO Academy 发布了目前最大规模的 3D 航空数据集，并训练了一个能生成数千平方公里地形的 3D 生成模型。

现有 3D 生成模型面对「生成一栋楼」这个任务完全没问题，但要生成「600 米 × 600 米的真实地形」，计算量会爆炸——因为地理尺度的 3D 数据太大了。

EarthCrafter 从数据和模型架构两端同时发力：

数据端：发布了 Aerial-Earth3D，目前最大的 3D 航空数据集——5 万个场景、每个 600m×600m，来自美国本土的谷歌地球影像，共计 4500 万帧，每帧附带位姿标注、深度图、语义分割等信息。

模型端：核心思路是「把几何和纹理分开来压缩和生成」。两个稀疏 3D 自编码器分别处理几何体素和纹理（2D 高斯分布），把巨大的地理数据压缩到紧凑的潜在空间，大幅降低计算成本。然后用一个「条件感知流匹配模型」把它们组合起来，支持「给语义图」「给参考图」「什么都不给」三种输入方式。

实验证明在超大尺度生成上明显优于现有方法，还能支持城市布局生成、无条件地形合成等多种应用。5

EarthCrafter 生成结果：语义条件输入、生成体素与地理渲染效果展示 — EarthCrafter 生成效果：从语义条件输入到最终地理渲染 5

Spelke Segments：让 AI 像人类婴儿一样理解「物体」

一句话版本：斯坦福和 OpenAI 的研究者提出了一种新的物体分割方法，依据「东西会不会一起动」而非「这是什么类型的东西」来定义物体边界。

传统的图像分割（比如最流行的 SAM）是基于语义的——「这里是一只猫，那里是一张椅子」。但发展心理学告诉我们，人类婴儿最开始感知物体的方式不是「它是什么」，而是「它们会不会一起动」——这被称为 Spelke 对象理论。

这篇论文把这个理论工程化了：

SpelkeBench：建立了一个包含各类自然图像的数据集，专门测试模型能不能按「联动关系」而不是「语义类别」分割物体
SpelkeNet：一类视觉世界模型，训练目标是预测「如果我戳这个区域，哪里会动」，然后用统计方法把联动区域归并成 Spelke 对象

在 SpelkeBench 上，SpelkeNet 超过了 SAM 等监督学习基线。更重要的是，用 Spelke 分割结果来辅助 3D 物体操控任务（3DEditBench），效果也比语义分割更好。

这个方向对机器人操控、场景理解等下游任务有实际意义——机器人不需要知道「这是杯子」，只需要知道「这一堆东西抓住一起动」。6

以上论文均为预印本，尚未经过同行评审，结论有待后续验证。