
HuggingFace 论文日报 · 2025/05/20
今日 HuggingFace 热榜 11 篇论文通俗解读:GSPO(Qwen3 背后的新 RL 算法)、Captain Cinema(文字转短片)、EarthCrafter(3D 地理场景生成)等,覆盖 LLM 训练效率、视觉生成、模型发布和认知视觉四大方向。

Research Brief
今天 HuggingFace 热榜上出现了一批值得关注的工作,从训练大模型的新算法,到用 AI 自动生成短片,再到让计算机像婴儿一样感知物体——覆盖面相当广。本期挑出 11 篇,逐一说清楚它们在做什么、解决了什么问题。
🔬 大模型训练
GSPO:Qwen3 背后的强化学习新算法
先说结论:这篇论文直接影响了 Qwen3 的训练效果,是目前最值得关注的 RL 训练工作之一。1
现在训练大模型通常有个「强化学习」阶段——让模型通过不断尝试和反馈来提升推理质量。现有主流算法(GRPO)在计算重要性比率时,是以单个 token(字) 为单位来衡量新旧策略的差异。
GSPO 改了一件事:把「以 token 为单位」换成「以整句输出序列为单位」来判断策略偏差有多大,并在序列层面做截断和奖励。
这个改动带来了两个实际效果:
- 训练更稳定,尤其对 MoE(混合专家)架构——原来 MoE 做 RL 训练时容易出现训练崩溃,GSPO 显著改善了这个问题
- 基础设施设计更简单,工程实现负担更低
Qwen3 系列的提升,部分就归功于把 GRPO 换成了 GSPO。
MUR:让大模型「知道什么时候该多想」
大模型做推理时有个矛盾:Test-Time Scaling(推理时增加计算量)确实能让答案更准,但也容易「过度思考」——明明简单的问题,模型反复绕圈子,白白浪费算力。2
MUR 的思路来自物理学里的动量概念。它不是直接看当前这步模型有多不确定,而是追踪「不确定性的变化趋势」——如果不确定性持续下降,说明模型正在收敛,可以早点停;如果不确定性反复波动,说明还需要继续探索。
关键优势:不需要重新训练模型,作为推理时的控制策略直接叠加在现有 LLM 上即可用。
🎬 视频与图像生成
Captain Cinema:给 AI 一段故事梗概,让它拍出短片
这是一个生成短片的框架,输入一段详细的文字剧情描述,自动产出一段连贯的短片视频。3
以往的视频生成模型大多只能生成几秒到十几秒的单个镜头,角色和场景前后不一致是个老大难问题——同一个角色,前一个镜头是短发,下一个镜头变成长发了。
Captain Cinema 用了「自上而下」的两步走:
- 先规划关键帧:根据剧情生成一系列关键画面,锁定整体叙事走向和视觉风格(角色长相、场景布局)
- 再填充动态:把关键帧作为约束信号,用视频生成模型补出帧间的运动和细节
这种方式让长片段的角色和场景保持一致,是当前短片生成领域的系统性方案。
TTS-VAR:推理时给图像生成「多花点时间」
这篇论文针对的是一类叫 VAR(视觉自回归模型)的图像生成模型,研究怎么在不重新训练的情况下,通过在推理时投入更多计算来提升生成质量。4
它把图像生成的过程理解成一个「路径搜索」问题:生成的每一步都有多种可能走向,如何在计算效率和探索广度之间动态平衡?
TTS-VAR 引入了一个「自适应降序采样策略」,根据当前生成状态动态调整搜索力度,是 VAR 模型上第一个通用的 Test-Time Scaling 框架。
EarthCrafter:用 AI 生成大规模 3D 地球场景
不同于生成单个物体或室内场景,EarthCrafter 面向的是大范围地理场景的 3D 生成——比如一整片山地、城市街区或海岸线。5
核心技术是「双稀疏潜在扩散」:真实的地理场景大部分空间是「空的」(天空、空气),只有地面附近的区域有密集结构。利用这种稀疏性,模型只在有结构的地方分配计算资源,大大降低了生成大场景的成本。
对自动驾驶仿真、游戏地图、卫星图像理解等场景有直接的应用价值。

Iwin Transformer:兼顾远近的视觉模型
视觉 Transformer 里有个经典分歧:CNN 擅长处理局部细节(相邻像素之间的关系),Transformer 擅长处理全局信息(远距离像素之间的关系),但两者结合起来往往需要两个连续模块才能近似一次全局注意力。6
Iwin Transformer 的创新在于:在单个模块内同时完成局部和全局的信息交换——用「交错窗口注意力」连接远距离 token,用「深度可分离卷积」连接相邻 token,不需要两个连续块配合。
在 ImageNet 图像分类上达到 87.4% top-1 准确率,同时支持直接从低分辨率迁移到高分辨率微调,不需要重新设计位置编码。

🤖 模型发布
TeleChat 系列:TeleChat2 / 2.5 / T1 技术报告
中国电信发布了 TeleChat 系列三款模型的技术报告,包括 TeleChat2、TeleChat2.5 和 T1。7
核心升级路径:
- TeleChat2:在 10 万亿高质量 token 上预训练,经过 SFT(监督微调)和 DPO(直接偏好优化)
- TeleChat2.5 和 T1:在 TeleChat2 基础上加入了领域特定数据集的持续预训练,并结合强化学习进一步提升
架构改动极少,性能提升主要来自训练策略的改进——这也是当下大模型演进的常见路径。
🔤 词向量与语言表示
A New Pair of GloVes:2024 年版英文词向量
GloVe(全局词向量)是 2014 年发布的经典词向量模型,十年来被大量研究和工程项目使用。这篇报告发布了基于 2024 年文本数据训练的新版本。8
为什么需要更新?两个原因:
- 新词涌现。「covid」这样的词在 2014 年的语料里不存在,旧版 GloVe 里没有它的向量
- 语义漂移。很多词的含义在十年间发生了变化,旧向量无法反映当前用法
新版 GloVe 的价值主要在那些轻量化 NLP 场景——不需要用大模型的 embedding,但需要覆盖当代词汇的应用,比如关键词过滤、文本相似度计算、可解释性研究等。
👁️ 计算机视觉
Spelke 物体感知:让 AI 像婴儿一样理解「物体」
这是一篇有点哲学味道的视觉论文。现有计算机视觉系统分割物体时,依赖的是语义类别(这是一只猫、那是一把椅子),而婴儿认知心理学家 Elizabeth Spelke 的研究表明,人类其实更先天地感知「一起移动的东西」作为一个物体。9
论文提出了 SpelkeNet:通过预测「如果戳这里,周围哪些区域会跟着动」来定义物体边界,而不依赖类别标注。训练的是一个视觉世界模型,估计两个核心图:
- 运动可供性图:图像里哪些区域「容易被拨动」
- 期望位移图:戳某个地方后,周围区域会怎么移动
实验表明 SpelkeNet 在 SpelkeBench 上超过了 SAM(Segment Anything),在物体操控任务上也表现更好。对机器人操作、物理仿真有潜在价值。
HLFormer:用双曲空间做视频检索
给一段文字描述,从视频库里找到最相关的视频片段——这是「部分相关视频检索」(PRVR)任务。难点在于视频有天然的层次结构(整体→场景→镜头→帧),而常用的欧氏空间不太擅长表达层次关系。10
HLFormer 是首个把双曲空间引入 PRVR 的框架。双曲空间天然具有指数增长的容量,非常适合表达树形层次结构。
具体做法:用 Lorentz 注意力块处理层次性更强的特征,用欧氏注意力块处理局部细节,再用「均值引导的自适应交互模块」动态融合两种特征。另外引入了一个「偏序保持损失」,强制文本向量在双曲空间里位于对应视频向量「内侧」,从几何上建模文本是视频的子集这一关系。
人脸年龄与性别估计:用于定向广告的轻量 CNN
这篇论文提出了一种从人脸图像同时估计年龄和识别性别的 CNN 模型,两个任务共享特征表示,利用年龄和性别信息之间的相关性来提升性能。11
性别分类准确率 95%,年龄估计平均误差 5.77 岁。论文也如实指出了模型对年轻人年龄估计误差更大的问题,说明需要针对性的数据增强来修正偏差。
今日小结
今天热榜的重心明显集中在两块:LLM 训练效率(GSPO、MUR)和生成式视觉(Captain Cinema、TTS-VAR、EarthCrafter)。GSPO 因为直接和 Qwen3 挂钩,是今天最值得深读的一篇。视觉方向的三篇论文分别对应短片生成、推理时缩放和地理场景三个不同场景,方向各异但都在朝「更大规模、更长一致性」推进。Spelke 物体感知那篇认知科学视角有意思,适合对 AI 基础感知机制感兴趣的读者深入看看。
References
- 1Group Sequence Policy Optimization
- 2MUR: Momentum Uncertainty guided Reasoning
- 3Captain Cinema: Towards Short Movie Generation
- 4TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation
- 5EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion
- 6Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows
- 7Technical Report of TeleChat2, TeleChat2.5 and T1
- 8A New Pair of GloVes
- 9Discovering and using Spelke segments
- 10HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning
- 11Deep Learning-Based Age Estimation and Gender Classification for Targeted Advertisement
Add more perspectives or context around this Post.