HuggingFace 论文日报 · 2025-05-22

今日 HuggingFace Trending Papers，共收录 11 篇。以下解读按「读者能否不懂 AI 也看明白」为基准撰写。

1. Qwen3 背后的 RL 秘密武器：GSPO

阿里巴巴 Qwen 团队最新发布的这篇论文，揭开了 Qwen3 模型性能大幅提升的关键技术：一种叫 **GSPO（Group Sequence Policy Optimization）**的强化学习算法。1

通俗解释：训练大模型就像训练一个员工。传统方法（GRPO）会对员工每说的每个字都给出评分，再决定奖惩——这在员工一次汇报几千字的场景下会让训练非常不稳定。GSPO 改成了「按整段汇报给总体评分」，一口气处理完整回答，而不是逐字打分。

这个改变带来了三个好处：训练更稳（不容易崩），效率更高（节省算力），对「混合专家模型」（MoE，一种让模型内部根据任务自动调用不同子专家的架构）的强化学习训练有显著稳定作用。

Qwen3 系列正是靠 GSPO 实现了明显的性能跳升。

维度	GRPO	GSPO
重要性比例定义	token 级别	序列级别
MoE 训练稳定性	较差	显著改善
基础设施复杂度	较高	有望简化

审稿状态：预印本（arXiv: 2507.18071）

GSPO 论文：作者信息与摘要页 — GSPO 论文首页，展示 Qwen Team 作者阵容与核心摘要 1

2. AI 推理也能「省着用」：MUR 框架

来自西安交大、南洋理工、北大、新加坡国立大学联合团队的研究，解决了一个让工程师头疼的问题：模型越「聪明」，算的越多，算力也烧得越猛。2

通俗解释：目前能力最强的推理模型（如 o3、Qwen3 Think 模式）会在回答前「自言自语」做大量推导，但很多步骤是多余的——就像一道简单加法题，有人却写了两页草稿。MUR（动量不确定性引导推理）的做法是：实时判断「这一步我有没有把握」，如果模型对某步骤很确定，就快速跳过，只在真正不确定的地方多花精力。

借鉴了物理学里「动量」的概念——一个方向上连续的不确定性会被「累积」，用来判断当前步骤是否值得多推导。

实验结果：在 Qwen3 1.7B/4B/8B 三个规模上测试，平均节省超过 50% 计算量，同时准确率还提升了 0.62–3.37 个百分点。2

审稿状态：预印本（arXiv: 2507.14958），代码已开源

3. AI 拍电影：Captain Cinema 框架

字节跳动 Seed 团队与约翰霍普金斯大学联合，向「AI 生成完整短片」迈出了实质性一步。3

通俗解释：现有 AI 视频工具大多只能生成几秒到十几秒的短片段，一旦时长变长，画面就开始「忘记」前面长什么样——角色换脸、场景混乱。Captain Cinema 用了一个「先规划后填充」的思路：

先规划：根据剧本文字，先生成一系列「关键帧」（就像分镜头脚本的关键画面），确保整个故事视觉上前后统一；
再填充：把关键帧之间的动态画面生成出来。

为了处理长镜头，他们还针对视频扩散模型专门设计了「交错训练策略」，在专门整理的电影数据集上训练。实验显示生成效果明显优于现有方案。

审稿状态：预印本（arXiv: 2507.18634）

Captain Cinema 论文首页，字节跳动 Seed × 约翰霍普金斯大学联合出品 3

4. 让图像生成也能「多想想」：TTS-VAR

港大 MMLab 与阿里通义实验室联合提出，把「推理时多算一算」的思路从语言模型移植到图像生成领域。4

通俗解释：语言模型近年兴起了「测试时缩放（Test-Time Scaling）」——即在推理阶段多花一些额外算力来提升质量。TTS-VAR 是首个把这个思路系统地应用到「视觉自回归模型」（VAR，一种从粗到细逐步生成图像的模型）上的框架。

核心思路是把图像生成看作「路径搜索」：生成早期阶段（大轮廓）保持多样候选，用语义聚类筛出最有潜力的几条路径，再在细节阶段集中算力优化。

在 Infinity 模型上测试，GenEval 评分从 0.69 提升至 0.75，涨幅 8.7%。

审稿状态：预印本（arXiv: 2507.18537）

5. 给地球建 3D 模型：EarthCrafter

阿里 DAMO Academy、复旦大学联合提出，目标是用 AI 生成任意区域的大规模 3D 地球地形。5

通俗解释：现有 3D 生成模型能做「一个房间」「一条街道」，但一旦要生成「几平方公里的城市」就计算量爆炸、质量崩溃。EarthCrafter 解决了这个规模问题，支持生成数百平方公里的地形。

他们做了两件核心工作：

数据集：从头构建了 Aerial-Earth3D，覆盖美国本土 5 万个 600m×600m 区域的航拍 3D 数据（4500 万帧），是目前规模最大的 3D 航拍数据集；
架构：「几何」与「纹理」分开生成，用两个稀疏 VAE 分别处理，大幅降低计算量同时保住细节。还支持「给语义图生成地形」或「无条件随机生成地形」两种使用方式。

应用场景：城市规划、虚拟地球、游戏地图、灾害模拟。

审稿状态：预印本（arXiv: 2507.16535），项目及模型已开源

EarthCrafter 论文首页与生成示例 — EarthCrafter 效果展示：左侧为语义条件生成结果，右侧为无条件随机地形合成 5

6. 中国电信 TeleChat 全系列升级：TeleChat2、2.5 与 T1

TeleAI 团队同步发布三个模型的技术报告，展示了从预训练到后训练阶段的完整升级路径。6

通俗解释：TeleChat2 在 10 万亿高质量 token 上预训练，再经过 SFT（有监督微调）和 DPO（偏好优化）两个阶段，性能大幅超越上一代。TeleChat2.5 和 T1 在此基础上加入了「领域持续预训练」——用特定行业数据进一步强化，再结合强化学习（RL）完成后训练。

三个模型代表了不同的能力-成本权衡点，报告中有详细的基准测试对比（具体数字见原文）。架构改动极小，性能提升主要来自训练策略优化。

审稿状态：预印本（arXiv: 2507.18013）

7. Swin Transformer 的升级版：Iwin Transformer

一篇解决「局部与全局注意力不兼容」的视觉 Transformer 架构论文，代码已开源。7

通俗解释：图像识别领域长期存在一个矛盾：CNN 擅长看局部细节，Transformer 擅长关注全局关系，但把两者结合起来通常要用两个连续模块轮流处理，效率低还容易信息丢失。

Iwin Transformer 用「交错窗口注意力」解决了这个问题——在一个模块内同时处理相邻 token（靠卷积）和远距离 token（靠注意力）。不需要位置编码，可以直接从低分辨率微调到高分辨率。

实验：ImageNet-1K 图像分类 87.4% top-1 准确率，语义分割、视频动作识别均具竞争力。

审稿状态：预印本（arXiv: 2507.18405），代码已开源

8. 用双曲空间做视频检索：HLFormer

哈工大（深圳）、清华深研院、鹏城实验室、香港科大联合提出，针对「用一句话找一个视频的相关片段」这个任务做了几何空间上的创新。8

通俗解释：「部分相关视频检索（PRVR）」是这样的场景——你输入「这个人在做什么」，系统要在一段完整的未剪辑视频里找到相关片段，而不是整段都相关。

难点在于：视频内容有天然的层次结构（场景→动作→细节），而平时把图文映射到向量的做法（欧氏空间）处理不好层次关系，容易搞错。HLFormer 把视频编码部分放进「双曲空间」——这是一种能天然表示树形层次关系的数学空间，就像家谱图的分叉结构比平面坐标更适合表示父子关系。

结果超越了现有最优方法（具体指标见原文）。

审稿状态：预印本（arXiv: 2507.17402）

9. GloVe 词向量 2024 新版：Stanford NLP 十年后续作

Stanford NLP 团队（同一批核心作者）更新了 2014 年发布的 GloVe 词向量模型。9

通俗解释：词向量是把单词变成数字的方法，让机器能做词语运算——「国王 - 男人 + 女人 ≈ 女王」。2014 年 Stanford 的 GloVe 是被引用最广泛的词向量之一，但它从没见过「covid」「GPT」这些词，也没更新过。

新版 GloVe 用 2024 年的语料重训，解决了旧版的词汇表过时问题，减少词汇表外（OOV）错误，也更好地反映了词义的变化（比如「cloud」在 2014 年主要指天上的云，现在主要指云计算）。这对轻量级 NLP 任务（不需要大模型的场景）仍有很高的实用价值。

审稿状态：预印本（arXiv: 2507.18103）

10. AI「看物体」的新方式：Spelke 分割

Stanford 大学与 OpenAI 联合，提出了一种根植于发展心理学的图像分割思路。10

通俗解释：传统图像分割会根据语义（「这是一只猫」「这是一把椅子」）来切割图像。但 Spelke objects（斯佩尔克对象）是发展心理学家 Elizabeth Spelke 提出的概念：婴儿从来不先学「这是猫」，而是先学「什么东西会一起动」——一起运动的部分才算同一个物体。

这篇论文把这个思路转化为 AI 算法：不依赖分类标签，而是基于「如果我戳这里，什么会跟着动」来定义物体边界。他们构建了 SpelkeBench 评测集，训练了 SpelkeNet 视觉世界模型，在物理操作任务（3DEditBench）上超过了 SAM（Segment Anything Model）。

对机器人抓取、物理仿真等需要「理解物体如何运动」的场景有直接价值。

审稿状态：预印本（arXiv: 2507.16038）

11. 用深度学习估年龄+判性别，用于广告定向

来自巴基斯坦 COMSATS 大学和拉合尔工程技术大学的研究，探索从人脸图像同时完成年龄估计与性别分类。11

通俗解释：这是一个实用向的应用研究，设计了定制 CNN 架构，利用「年龄特征和性别特征在人脸上本来就相互关联」这一点，让一个模型同时学习两个任务，而不是两个模型各学一个。

结果：性别分类准确率达到 95%，年龄估计平均误差为 5.77 岁。研究也如实指出了模型的弱点：对年轻人的年龄估计准确率比其他年龄段低，作者建议通过数据增强和针对性优化来改进。

审稿状态：单人 / 小机构投稿，同行评审状态未知，需读者自行判断可信度。

1 2 3 4 5 6 7 8 9 10 11