HuggingFace 论文日报 · 2025/05/20

今天 HuggingFace trending 上有 11 篇论文，覆盖大模型训练、推理效率、视频生成、视觉理解等方向。以下是每篇论文的通俗解读，帮你快速判断是否值得深读。

1. GSPO：让大模型强化学习训练更稳定

论文：Group Sequence Policy Optimization 1 机构：阿里巴巴 Qwen 团队方向：大语言模型训练（强化学习）状态：预印本

你可以把它理解成什么？ 现在训练大模型的一个重要步骤，是用强化学习让模型越来越会「说有用的话」——但这个过程很不稳定，尤其是大型 MoE 模型（一种把多个小专家模型拼在一起的架构），训练时经常「抖动」。

GSPO 的核心改变只有一条：之前计算「这个回答好不好」是逐词计算的（token 级），GSPO 改成了逐句或逐段（sequence 级）。这个改动看起来微小，但效果相当明显——训练稳定了，效果也更好，并且 Qwen3 模型用了 GSPO 后性能有明显提升。

对比 GRPO（当前主流强化学习算法）：GSPO 把奖励计算单元从 token 升到 sequence，裁剪操作也随之在 sequence 层面做，减少了梯度方差，训练曲线更平滑。

实验结论：GSPO 在效率和性能上均优于 GRPO，MoE 模型训练稳定性显著提升。已应用于 Qwen3 正式版本。

代码：论文未单独提供，已集成在 Qwen3 训练管线中。

2. MUR：让大模型「想清楚再说」，省掉多余的推理

论文：MUR: Momentum Uncertainty guided Reasoning 2 机构：西安交通大学、南洋理工大学、北京大学、新加坡国立大学方向：推理效率优化（测试时计算）状态：预印本，代码已开源（GitHub）

你可以把它理解成什么？ 有些大模型在回答问题时喜欢「内耗」——一道简单的加法题也要想三四步，多出来的步骤纯粹是浪费算力。怎么让模型「想到位了就停，别继续冗余推理」？

MUR 借鉴了物理学里的「动量」概念：如果模型在推理过程中的「不确定感」一直很低（动量趋于稳定），说明已经推出答案了，可以停；如果不确定感仍在起伏，说明还需要继续推。整个过程不需要额外训练，推理时直接使用。

方法亮点：不用训练额外参数，直接在推理阶段动态控制计算步数，适配不同难度的题目。

实验结论：在多个推理基准上，MUR 在不降低准确率的情况下减少了不必要的 token 消耗，具体节省比例依任务难度而定（论文全文数据表见原文）。

3. Captain Cinema：AI 生成短片，不只是一段视频

论文：Captain Cinema: Towards Short Movie Generation 3 机构：字节跳动 Seed、约翰斯·霍普金斯大学、斯坦福大学、香港中文大学方向：视频生成（长视频 / 故事连贯性）状态：预印本

你可以把它理解成什么？ 当前 AI 视频生成的最大问题不是「画质差」，而是「前后对不上」——同一个角色从这个镜头到下个镜头换了脸，场景前后脱节。这篇论文想解决的就是这件事：给一段故事文字，生成一部前后连贯的短片。

Captain Cinema 的做法分两步走：

先规划关键帧（自上而下）：给定故事梗概，先生成若干关键帧，把整个叙事骨架固定下来。这一步保证角色外貌、场景布局全局一致。
再填充中间画面（自下而上）：用一个支持长上下文的视频生成模型，以关键帧为锚点，生成帧与帧之间的动态过渡。

方法亮点：「关键帧先行 + 视频补帧」的分层架构，比端到端直接生成长视频在连贯性上更可控。

实验结论：在故事连贯性和视觉一致性上优于此前基线，具体指标详见论文。

4. TTS-VAR：视觉自回归模型的测试时计算缩放

论文：TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation 4 机构：香港大学 MMLab、通义实验室（阿里）、香港中文大学方向：图像生成（自回归模型 + 测试时缩放）状态：预印本

你可以把它理解成什么？ 生成图片的 AI 模型有两大流派：扩散模型（Stable Diffusion 那一套）和自回归模型（像 GPT 逐字生成、这里是逐块生成图片）。自回归生成图片的方式叫 VAR。

「测试时缩放」是最近很热的概念：模型不额外训练，但在推理时多做几步思考，质量就能提升。TTS-VAR 把这个思路搬到了图像生成的自回归模型上——把生成图片的过程建模成一个「路径搜索」问题，自适应地决定在哪些步骤多想几步、在哪些步骤可以快进。

方法亮点：据论文所述，这是首个针对 VAR 图像生成模型的测试时缩放框架；引入「自适应下降」机制动态平衡计算效率和探索能力。

实验结论：在图像生成质量指标上有提升，同时保持计算可控（具体 FID 等指标见论文全文）。

5. EarthCrafter：AI 生成你没去过的地球地表

论文：EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion 5 机构：阿里巴巴 DAMO Academy、复旦大学方向：3D 生成（地理场景）状态：预印本，项目页面：[https://whiteinblue.[github.io/earthcrafter/](https://whiteinblue.github.io/earthcrafter/)](https://github.io/earthcrafter/](https://whiteinblue.github.io/earthcrafter/))

你可以把它理解成什么？ 这篇论文要做的事情有点像「给 Google 地球加 AI 生成能力」：输入一张卫星图或语义地图，AI 能生成对应位置的三维地表模型——包括地形起伏、道路分布、建筑位置。

它的难点在于规模：真实地球地表又大又细，普通的扩散模型处理不来。EarthCrafter 用了一种叫「双稀疏潜扩散（Dual-Sparse Latent Diffusion）」的方法，简单说就是：只对「有信息的地方」精细处理，空旷区域粗略处理，大幅降低计算压力。

实验结论：在单视角语义条件生成和无条件生成任务上，视觉效果优于此前方法（见项目页面演示）。

6. TeleChat2 系列：国内又一款训练技术全披露的大模型

论文：Technical Report of TeleChat2, TeleChat2.5 and T1 6 机构：中国电信 TeleAI 方向：大语言模型（技术报告）状态：预印本（技术报告形式）

你可以把它理解成什么？ 这是中国电信人工智能研究院（TeleAI）发布的三代模型技术报告，系统介绍了 TeleChat2、TeleChat2.5 和 T1 三个版本的训练方法。

核心信息：

TeleChat2 在 10 万亿高质量 token 上预训练，之后用 SFT（有监督微调）和 DPO（直接偏好优化）增强；
TeleChat2.5 和 T1 在此基础上加入了持续预训练阶段，用特定领域数据集 + 强化学习进一步提升；
论文强调：架构改动不大，性能提升主要靠训练策略升级。

对希望了解「国内大模型怎么训」的研究者来说，这份报告有一定参考价值。

7. 新版 GloVe：词向量的 2024 年更新

论文：A New Pair of GloVes 7 机构：斯坦福 NLP 组方向：词表示学习（NLP 基础工具）状态：预印本

你可以把它理解成什么？ GloVe（全称 Global Vectors for Word Representation）是一个已经用了十年的「词向量」工具——简单说，它能把每个词变成一组数字，让计算机理解词与词之间的语义关系。2014 年斯坦福发布的初版 GloVe 至今还在被大量使用。

问题来了：世界变了。「covid」这个词在 2014 年的训练数据里根本不存在，它的向量在老版 GloVe 里就是一片空白。斯坦福 NLP 组这次用新数据重新训练了 GloVe，修了这些「未登录词」问题，并且详细记录了数据版本和预处理步骤（原版论文没有记录这些，一直是个缺陷）。

方法亮点：非技术创新，核心贡献是「更新 + 文档化」——让 GloVe 覆盖 2024 年的词汇，同时提高可复现性。

实验结论：在下游任务中，新版 GloVe 减少了未登录词问题，在多个基准上表现有所提升。

8. Spelke 分割：用「物体会怎么移动」来理解场景

论文：Discovering and using Spelke segments 8 机构：斯坦福大学、OpenAI、Noetik Inc. 方向：计算机视觉（目标分割）状态：预印本

你可以把它理解成什么？ 通常，AI 识别图片里的物体是靠「类别」——这是一只猫、那是一把椅子。但人类理解物体还有另一个方式：「这些东西碰了之后会一起移动吗？」——拼图的一块、搭积木的一组、放在一起的一摞书，它们在物理上「绑定」在一起。

Spelke 物体（Spelke objects）来自发展心理学，指的是婴儿识别世界时用的那种「物理实体」概念——不依赖类别，只看物理运动规律。这篇论文把这个概念用到了计算机视觉上：

构建了 SpelkeBench 数据集，标注了真实图像里的 Spelke 分割；
提出了 SpelkeNet，一种通过预测「这里戳一下，场景里什么会动」来做分割的视觉世界模型。

实验结论：在 SpelkeBench 上，SpelkeNet 超过了有监督基线 SAM（Segment Anything Model）；在物体操作下游任务（3DEditBench）上表现也更好。

9. Iwin Transformer：更聪明地连接远近信息

论文：Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows 9 机构：论文未披露具体机构方向：计算机视觉（视觉 Transformer 架构）状态：预印本，代码已开源（GitHub）

你可以把它理解成什么？ Swin Transformer 是图像理解领域的经典模型，它把图片切成一个个「窗口」，在窗口内做注意力计算——好处是省算力，但缺点是相邻窗口之间的信息连接需要两个连续的模块才能做到，有点绕。

Iwin Transformer 的改动思路：用「交错窗口注意力（Interleaved Window Attention）」+ 深度可分离卷积组合，在一个模块内同时完成「远距离信息连接（注意力）」和「相邻信息连接（卷积）」，不再需要两步。同时它去掉了位置编码，允许模型直接从低分辨率微调到高分辨率。

实验结论：ImageNet-1K 分类 top-1 准确率 87.4%；在语义分割和视频动作识别任务上也有竞争力表现。

10. 人脸年龄与性别同时识别：为精准广告服务

论文：Deep Learning-Based Age Estimation and Gender Classification for Targeted Advertisement 10 机构：论文未披露具体机构（单人投稿，同行评审状态未知）方向：计算机视觉（人脸分析）状态：预印本，此为单人投稿且无机构信息，同行评审过程不确定

你可以把它理解成什么？ 这篇论文设计了一个 CNN 模型，同时做两件事：从人脸图片推断年龄、判断性别。应用场景是精准广告投放——根据路过广告牌的真实人群特征，实时调整显示内容。

方法亮点：把年龄估计和性别分类作为同一网络的两个输出，让模型同时学习两个任务，相互共享人脸特征表示，比两个独立模型效率更高。

实验结论：性别分类准确率 95%；年龄估计平均绝对误差（MAE）5.77 岁。作者指出，模型在识别年轻人年龄时误差偏大，未来需要针对性的数据增强。

11. HLFormer：用双曲空间理解视频与文字的层级关系

论文：HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning 11 机构：论文未披露具体机构方向：视频检索（跨模态匹配）状态：预印本，代码已开源（GitHub）

你可以把它理解成什么？ 「用文字检索视频」这个任务比想象中难——因为你的一句描述，可能只对应视频里的某一段，而不是整段视频。这叫「部分相关视频检索（PRVR）」。

难点在于视频是有层级结构的：一句话 → 一个片段 → 整段视频，这种层级关系用普通的欧式空间表示会失真（因为欧式空间里「层级嵌套」的几何表达很不自然）。

HLFormer 把双曲空间（Hyperbolic Space）引入了这个任务——双曲空间有个特点，离中心越远、「层级越低」，天然适合表达从一般到具体的语义层级。它结合了 Lorentz 注意力块（处理层级信息）和欧式注意力块（处理局部关系），并引入了一个「偏序保留损失」强制文本语义在视频语义的「子集关系」里对齐。

实验结论：在标准 PRVR 基准上超越现有最优方法，具体指标详见论文。

数据来源：HuggingFace Daily Papers · 2025-05-20

HuggingFace 论文日报 · 2025/05/20：11 篇热门论文通俗解读