HuggingFace 论文日报 · 2025-05-20

今日 HuggingFace 上线 8 篇热门论文，覆盖强化学习算法、推理效率、AI 视频生成、3D 地形建模和词向量更新。以下按通俗程度逐一解读。

GSPO：让 Qwen3 成功背后的强化学习算法

论文：Group Sequence Policy Optimization 1

你可能听说过 Qwen3 最近表现很厉害——这篇论文就是 Qwen3 背后一个关键训练方法的技术披露。

AI 大模型训练的最后阶段通常要用「强化学习」来让模型变得更听话、更聪明。现有的主流方法（GRPO）有一个设计缺陷：它按每个单词（token）来计算「这个输出好不好」，这就像在阅卷时，老师对每个字逐字打分，而不是看整段回答。这种方式在训练混合专家模型（MoE）时容易不稳定，训练会「翻车」。

GSPO 的改动很直接：把评判单位从「每个词」换成「整段回答」。打个比方：与其纠结演员每个动作好不好，不如看完整场表演再打分。这样做的结果是训练更稳定，同样的算力能出更好的效果。阿里巴巴团队还说 GSPO 有潜力简化强化学习的工程基础设施，这对工业界降本意义较大。

受众提示：如果你在做 LLM 微调，GSPO 是 GRPO 的强力替代选项，尤其在 MoE 架构下稳定性优势明显。

机构：阿里巴巴（Qwen 团队）
状态：预印本，已用于 Qwen3 生产

MUR：让 AI「别想太多」，省算力还提准确率

论文：Momentum Uncertainty guided Reasoning 2

这篇论文解决的问题很有意思：现代推理模型（比如 o1、Qwen3 带思考模式的版本）会「过度思考」——遇到一道简单数学题，它会在脑子里绕很多弯路，浪费大量 token，但答案不见得更准。

MUR（动量不确定性引导推理）的思路来自物理学的「动量」概念。物体运动有惯性，当它方向明确时不需要频繁调整；当它方向不确定时才需要更多修正。MUR 对推理步骤也这样处理：追踪每一步推理的「不确定程度」，只在真的不确定时多分配算力，确定的步骤直接跳过。

实验在 MATH-500、AIME24、AIME25、GPQA-diamond 四个数学/科学推理基准上，用 Qwen3 1.7B/4B/8B 三个尺寸测试，结果：算力平均减少超过 50%，准确率还提升了 0.62–3.37%。不需要重新训练模型，只在推理阶段使用。

机构：未披露（作者信息未公开）
状态：预印本

Captain Cinema：AI 自动导演短片

论文：Captain Cinema: Towards Short Movie Generation 3

生成一段 5 秒的视频现在已经很普通了，但生成一段叙事完整、角色前后一致的「短片」——仍然是个硬骨头。这篇论文来自字节跳动和约翰霍普金斯大学，提出了一个叫 Captain Cinema 的框架，专门解决这个问题。

核心思路分两步：

先画「故事板」（Top-down 规划）：给定一段故事文字描述，先生成一组关键帧——就像导演在拍摄前画分镜草图，确保整部影片的场景、角色外貌、情节逻辑前后一致。
再填充中间画面（Bottom-up 合成）：以关键帧为锚点，用视频合成模型补全帧间的动态过渡，让画面流畅自然。

支撑这一切的是一种针对多模态扩散 Transformer（MM-DiT）的「交错训练策略」，让模型能理解超长上下文的视频数据。项目主页可以看效果视频：thecinema.ai

机构：字节跳动 + 约翰霍普金斯大学
状态：预印本

TTS-VAR：让图像生成模型「多想几秒」出更好图

论文：TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation 4

「测试时缩放」（Test-Time Scaling）是 AI 领域最近很热的一个思路：模型训练完之后，不改参数，只让它在推理时多想一会儿，效果就能变好。这个思路在语言模型（比如 o1）上已经验证了，这篇论文把它移植到了图像生成领域。

视觉自回归模型（VAR）生成图片的方式类似：先画低分辨率的轮廓，再逐步细化到高分辨率。TTS-VAR 把这个过程看作「路径搜索」：在生成的每一步，同时维持多条候选方案，然后通过两种策略筛选最好的：

早期（轮廓阶段）：用聚类的方法保留多样性，避免过早都走向同一个平庸方案
晚期（细节阶段）：用「潜力分」筛选最有希望的候选，重点投入算力

在 Infinity 模型上测试，GenEval 分数从 0.69 提升到 0.75，提升了 8.7%。代码已开源：github.com/ali-vilab/TTS-VAR

机构：阿里巴巴
状态：预印本

EarthCrafter：用 AI 生成真实比例的三维地球表面

论文：EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion 5

现有的 3D 生成模型擅长生成一把椅子、一只猫，但如果要生成「一片 600 平方公里的地形」，算力直接爆炸。这篇论文专门解决这个量级的问题。

研究团队先自建了一个叫 Aerial-Earth3D 的航拍数据集：从 Google Earth 抓取了覆盖美国大陆的 5 万个场景，每个场景 600m×600m，共 4500 万帧多视角图像，附带深度图、法线图、语义分割等信息。这是目前已知最大的三维航拍数据集。

在模型架构上，EarthCrafter 用了「双稀疏 3D-VAE」分别压缩几何形状和纹理，把庞大的地形数据压缩进可计算的潜在空间，再用「条件感知流匹配」模型灵活生成。实际效果：支持按语义描述生成城市布局，也支持无条件的地形合成。

这个方向对自动驾驶数据增广、卫星图模拟、城市规划模拟有直接应用价值。

机构：未披露
状态：预印本

TeleChat2/2.5/T1：中国电信开源的 115B 大模型

论文：Technical Report of TeleChat2, TeleChat2.5 and T1 6

中国电信 AI 研究院发布了三个大模型的技术报告，全部开源：

模型	参数量	定位	亮点
TeleChat2	35B/115B	通用基座	1 万亿 token 预训练，SFT+DPO 对齐
TeleChat2.5	115B	极速推理	在保证质量的前提下推理更快
T1	115B	深度推理	支持长链式思维，数学/代码能力强

T1-115B 在数学和代码任务上声称超越了 OpenAI 的 o1-mini 和 GPT-4o。架构上三者都是稠密 Transformer（非 MoE），35B 和 115B 版本均公开发布。

机构：中国电信（TeleAI）
状态：预印本

「新一双 GloVes」：词向量的十年补丁

论文：A New Pair of GloVes 7

GloVe 是 2014 年发布的一个词向量工具，在 BERT/GPT 出现之前是 NLP 的基石工具之一，至今在轻量级应用、可解释性分析中仍常用。问题是：2014 年的数据里没有「covid」「ChatGPT」这些词，在这些词上用旧 GloVe 就会报「词汇表外」错误。

这篇论文做的事很简单：用 2024 年的 Wikipedia、Gigaword 和 Dolma 数据集重新训练了 GloVe，并且这次认真记录了数据版本和预处理细节（原始 2014 版没有好好记录）。测试结果：在词类比、词相似度等传统任务上和旧版持平，在包含新词的 NER（命名实体识别）任务，尤其是非西方新闻数据上表现更好。

对不需要大模型的轻量部署场景，这是一个值得替换的更新。

机构：未披露（学术团队）
状态：预印本

Spelke 分割：让 AI 像婴儿一样理解「哪些东西会一起动」

论文：Discovering and using Spelke segments 8

发展心理学家 Elizabeth Spelke 有一个经典发现：婴儿在学会说话、认识颜色之前，就已经能判断「哪些物体会一起运动」。比如你推一个咖啡杯，婴儿知道杯盖也会跟着动；但桌子不会。这种能力跟物体的「类别」无关，只跟物理运动相关。

计算机视觉里通常用「语义分割」来区分物体（猫、椅子、人...），但这需要大量类别标注，而且同一个类别在不同场景下边界可能不同。这篇论文把 Spelke 的概念引入 CV：训练一个叫 SpelkeNet 的视觉世界模型，专门预测「如果我戳图片里的某个位置，哪些部分会一起动」。

做法：用「虚拟戳」模拟各种扰动，统计哪些区域的位移是相关的，这些区域就属于同一个 Spelke 物体。结果：在新建的 SpelkeBench 数据集上，SpelkeNet 超越了 SAM（Segment Anything Model）；在物理对象操作的 3DEditBench 上，各种下游机器人抓取模型用了 Spelke 分割后效果都更好。

对做机器人、具身智能的研究者有直接参考价值。

机构：未披露
状态：预印本

HF 论文日报 · 0520：Qwen3 训练算法、AI 短片生成、3D 地球建模等 8 篇