HuggingFace 论文日报 · 2025/05/20 (2026)

今天 HuggingFace 热榜上出现了一批值得关注的工作，从训练大模型的新算法，到用 AI 自动生成短片，再到让计算机像婴儿一样感知物体——覆盖面相当广。本期挑出 11 篇，逐一说清楚它们在做什么、解决了什么问题。

🔬 大模型训练

GSPO：Qwen3 背后的强化学习新算法

先说结论：这篇论文直接影响了 Qwen3 的训练效果，是目前最值得关注的 RL 训练工作之一。1

现在训练大模型通常有个「强化学习」阶段——让模型通过不断尝试和反馈来提升推理质量。现有主流算法（GRPO）在计算重要性比率时，是以单个 token（字） 为单位来衡量新旧策略的差异。

GSPO 改了一件事：把「以 token 为单位」换成「以整句输出序列为单位」来判断策略偏差有多大，并在序列层面做截断和奖励。

这个改动带来了两个实际效果：

训练更稳定，尤其对 MoE（混合专家）架构——原来 MoE 做 RL 训练时容易出现训练崩溃，GSPO 显著改善了这个问题
基础设施设计更简单，工程实现负担更低

Qwen3 系列的提升，部分就归功于把 GRPO 换成了 GSPO。

MUR：让大模型「知道什么时候该多想」

大模型做推理时有个矛盾：Test-Time Scaling（推理时增加计算量）确实能让答案更准，但也容易「过度思考」——明明简单的问题，模型反复绕圈子，白白浪费算力。2

MUR 的思路来自物理学里的动量概念。它不是直接看当前这步模型有多不确定，而是追踪「不确定性的变化趋势」——如果不确定性持续下降，说明模型正在收敛，可以早点停；如果不确定性反复波动，说明还需要继续探索。

关键优势：不需要重新训练模型，作为推理时的控制策略直接叠加在现有 LLM 上即可用。

🎬 视频与图像生成

Captain Cinema：给 AI 一段故事梗概，让它拍出短片

这是一个生成短片的框架，输入一段详细的文字剧情描述，自动产出一段连贯的短片视频。3

以往的视频生成模型大多只能生成几秒到十几秒的单个镜头，角色和场景前后不一致是个老大难问题——同一个角色，前一个镜头是短发，下一个镜头变成长发了。

Captain Cinema 用了「自上而下」的两步走：

先规划关键帧：根据剧情生成一系列关键画面，锁定整体叙事走向和视觉风格（角色长相、场景布局）
再填充动态：把关键帧作为约束信号，用视频生成模型补出帧间的运动和细节

这种方式让长片段的角色和场景保持一致，是当前短片生成领域的系统性方案。

TTS-VAR：推理时给图像生成「多花点时间」

这篇论文针对的是一类叫 VAR（视觉自回归模型）的图像生成模型，研究怎么在不重新训练的情况下，通过在推理时投入更多计算来提升生成质量。4

它把图像生成的过程理解成一个「路径搜索」问题：生成的每一步都有多种可能走向，如何在计算效率和探索广度之间动态平衡？

TTS-VAR 引入了一个「自适应降序采样策略」，根据当前生成状态动态调整搜索力度，是 VAR 模型上第一个通用的 Test-Time Scaling 框架。

EarthCrafter：用 AI 生成大规模 3D 地球场景

不同于生成单个物体或室内场景，EarthCrafter 面向的是大范围地理场景的 3D 生成——比如一整片山地、城市街区或海岸线。5

核心技术是「双稀疏潜在扩散」：真实的地理场景大部分空间是「空的」（天空、空气），只有地面附近的区域有密集结构。利用这种稀疏性，模型只在有结构的地方分配计算资源，大大降低了生成大场景的成本。

对自动驾驶仿真、游戏地图、卫星图像理解等场景有直接的应用价值。

Iwin Transformer：兼顾远近的视觉模型

视觉 Transformer 里有个经典分歧：CNN 擅长处理局部细节（相邻像素之间的关系），Transformer 擅长处理全局信息（远距离像素之间的关系），但两者结合起来往往需要两个连续模块才能近似一次全局注意力。6

Iwin Transformer 的创新在于：在单个模块内同时完成局部和全局的信息交换——用「交错窗口注意力」连接远距离 token，用「深度可分离卷积」连接相邻 token，不需要两个连续块配合。

在 ImageNet 图像分类上达到 87.4% top-1 准确率，同时支持直接从低分辨率迁移到高分辨率微调，不需要重新设计位置编码。

🤖 模型发布

TeleChat 系列：TeleChat2 / 2.5 / T1 技术报告

中国电信发布了 TeleChat 系列三款模型的技术报告，包括 TeleChat2、TeleChat2.5 和 T1。7

核心升级路径：

TeleChat2：在 10 万亿高质量 token 上预训练，经过 SFT（监督微调）和 DPO（直接偏好优化）
TeleChat2.5 和 T1：在 TeleChat2 基础上加入了领域特定数据集的持续预训练，并结合强化学习进一步提升

架构改动极少，性能提升主要来自训练策略的改进——这也是当下大模型演进的常见路径。

🔤 词向量与语言表示

A New Pair of GloVes：2024 年版英文词向量

GloVe（全局词向量）是 2014 年发布的经典词向量模型，十年来被大量研究和工程项目使用。这篇报告发布了基于 2024 年文本数据训练的新版本。8

为什么需要更新？两个原因：

新词涌现。「covid」这样的词在 2014 年的语料里不存在，旧版 GloVe 里没有它的向量
语义漂移。很多词的含义在十年间发生了变化，旧向量无法反映当前用法

新版 GloVe 的价值主要在那些轻量化 NLP 场景——不需要用大模型的 embedding，但需要覆盖当代词汇的应用，比如关键词过滤、文本相似度计算、可解释性研究等。

👁️ 计算机视觉

Spelke 物体感知：让 AI 像婴儿一样理解「物体」

这是一篇有点哲学味道的视觉论文。现有计算机视觉系统分割物体时，依赖的是语义类别（这是一只猫、那是一把椅子），而婴儿认知心理学家 Elizabeth Spelke 的研究表明，人类其实更先天地感知「一起移动的东西」作为一个物体。9

论文提出了 SpelkeNet：通过预测「如果戳这里，周围哪些区域会跟着动」来定义物体边界，而不依赖类别标注。训练的是一个视觉世界模型，估计两个核心图：

运动可供性图：图像里哪些区域「容易被拨动」
期望位移图：戳某个地方后，周围区域会怎么移动

实验表明 SpelkeNet 在 SpelkeBench 上超过了 SAM（Segment Anything），在物体操控任务上也表现更好。对机器人操作、物理仿真有潜在价值。

HLFormer：用双曲空间做视频检索

给一段文字描述，从视频库里找到最相关的视频片段——这是「部分相关视频检索」（PRVR）任务。难点在于视频有天然的层次结构（整体→场景→镜头→帧），而常用的欧氏空间不太擅长表达层次关系。10

HLFormer 是首个把双曲空间引入 PRVR 的框架。双曲空间天然具有指数增长的容量，非常适合表达树形层次结构。

具体做法：用 Lorentz 注意力块处理层次性更强的特征，用欧氏注意力块处理局部细节，再用「均值引导的自适应交互模块」动态融合两种特征。另外引入了一个「偏序保持损失」，强制文本向量在双曲空间里位于对应视频向量「内侧」，从几何上建模文本是视频的子集这一关系。

人脸年龄与性别估计：用于定向广告的轻量 CNN

这篇论文提出了一种从人脸图像同时估计年龄和识别性别的 CNN 模型，两个任务共享特征表示，利用年龄和性别信息之间的相关性来提升性能。11

性别分类准确率 95%，年龄估计平均误差 5.77 岁。论文也如实指出了模型对年轻人年龄估计误差更大的问题，说明需要针对性的数据增强来修正偏差。

今日小结

今天热榜的重心明显集中在两块：LLM 训练效率（GSPO、MUR）和生成式视觉（Captain Cinema、TTS-VAR、EarthCrafter）。GSPO 因为直接和 Qwen3 挂钩，是今天最值得深读的一篇。视觉方向的三篇论文分别对应短片生成、推理时缩放和地理场景三个不同场景，方向各异但都在朝「更大规模、更长一致性」推进。Spelke 物体感知那篇认知科学视角有意思，适合对 AI 基础感知机制感兴趣的读者深入看看。

HuggingFace 论文日报 · 2025/05/20