
HuggingFace 论文日报 · 2025-05-22
今日 HuggingFace 11 篇 trending 论文通俗解读:Qwen3 背后的 RL 算法 GSPO、省算力 50% 的推理框架 MUR、AI 短片生成 Captain Cinema、图像测试时缩放 TTS-VAR、大规模 3D 地球生成 EarthCrafter、TeleChat 全系列升级,以及 Iwin Transformer、双曲视频检索、GloVe 2024 更新、Spelke 分割等多项研究。

Research Brief
今日 HuggingFace Trending Papers,共收录 11 篇。以下解读按「读者能否不懂 AI 也看明白」为基准撰写。
1. Qwen3 背后的 RL 秘密武器:GSPO
阿里巴巴 Qwen 团队最新发布的这篇论文,揭开了 Qwen3 模型性能大幅提升的关键技术:一种叫 **GSPO(Group Sequence Policy Optimization)**的强化学习算法。1
通俗解释:训练大模型就像训练一个员工。传统方法(GRPO)会对员工每说的每个字都给出评分,再决定奖惩——这在员工一次汇报几千字的场景下会让训练非常不稳定。GSPO 改成了「按整段汇报给总体评分」,一口气处理完整回答,而不是逐字打分。
这个改变带来了三个好处:训练更稳(不容易崩),效率更高(节省算力),对「混合专家模型」(MoE,一种让模型内部根据任务自动调用不同子专家的架构)的强化学习训练有显著稳定作用。
Qwen3 系列正是靠 GSPO 实现了明显的性能跳升。
| 维度 | GRPO | GSPO |
|---|---|---|
| 重要性比例定义 | token 级别 | 序列级别 |
| MoE 训练稳定性 | 较差 | 显著改善 |
| 基础设施复杂度 | 较高 | 有望简化 |
审稿状态:预印本(arXiv: 2507.18071)

2. AI 推理也能「省着用」:MUR 框架
来自西安交大、南洋理工、北大、新加坡国立大学联合团队的研究,解决了一个让工程师头疼的问题:模型越「聪明」,算的越多,算力也烧得越猛。2
通俗解释:目前能力最强的推理模型(如 o3、Qwen3 Think 模式)会在回答前「自言自语」做大量推导,但很多步骤是多余的——就像一道简单加法题,有人却写了两页草稿。MUR(动量不确定性引导推理)的做法是:实时判断「这一步我有没有把握」,如果模型对某步骤很确定,就快速跳过,只在真正不确定的地方多花精力。
借鉴了物理学里「动量」的概念——一个方向上连续的不确定性会被「累积」,用来判断当前步骤是否值得多推导。
实验结果:在 Qwen3 1.7B/4B/8B 三个规模上测试,平均节省超过 50% 计算量,同时准确率还提升了 0.62–3.37 个百分点。2
审稿状态:预印本(arXiv: 2507.14958),代码已开源
3. AI 拍电影:Captain Cinema 框架
字节跳动 Seed 团队与约翰霍普金斯大学联合,向「AI 生成完整短片」迈出了实质性一步。3
通俗解释:现有 AI 视频工具大多只能生成几秒到十几秒的短片段,一旦时长变长,画面就开始「忘记」前面长什么样——角色换脸、场景混乱。Captain Cinema 用了一个「先规划后填充」的思路:
- 先规划:根据剧本文字,先生成一系列「关键帧」(就像分镜头脚本的关键画面),确保整个故事视觉上前后统一;
- 再填充:把关键帧之间的动态画面生成出来。
为了处理长镜头,他们还针对视频扩散模型专门设计了「交错训练策略」,在专门整理的电影数据集上训练。实验显示生成效果明显优于现有方案。
审稿状态:预印本(arXiv: 2507.18634)

4. 让图像生成也能「多想想」:TTS-VAR
港大 MMLab 与阿里通义实验室联合提出,把「推理时多算一算」的思路从语言模型移植到图像生成领域。4
通俗解释:语言模型近年兴起了「测试时缩放(Test-Time Scaling)」——即在推理阶段多花一些额外算力来提升质量。TTS-VAR 是首个把这个思路系统地应用到「视觉自回归模型」(VAR,一种从粗到细逐步生成图像的模型)上的框架。
核心思路是把图像生成看作「路径搜索」:生成早期阶段(大轮廓)保持多样候选,用语义聚类筛出最有潜力的几条路径,再在细节阶段集中算力优化。
在 Infinity 模型上测试,GenEval 评分从 0.69 提升至 0.75,涨幅 8.7%。
审稿状态:预印本(arXiv: 2507.18537)
5. 给地球建 3D 模型:EarthCrafter
阿里 DAMO Academy、复旦大学联合提出,目标是用 AI 生成任意区域的大规模 3D 地球地形。5
通俗解释:现有 3D 生成模型能做「一个房间」「一条街道」,但一旦要生成「几平方公里的城市」就计算量爆炸、质量崩溃。EarthCrafter 解决了这个规模问题,支持生成数百平方公里的地形。
他们做了两件核心工作:
- 数据集:从头构建了 Aerial-Earth3D,覆盖美国本土 5 万个 600m×600m 区域的航拍 3D 数据(4500 万帧),是目前规模最大的 3D 航拍数据集;
- 架构:「几何」与「纹理」分开生成,用两个稀疏 VAE 分别处理,大幅降低计算量同时保住细节。还支持「给语义图生成地形」或「无条件随机生成地形」两种使用方式。
应用场景:城市规划、虚拟地球、游戏地图、灾害模拟。
审稿状态:预印本(arXiv: 2507.16535),项目及模型已开源

6. 中国电信 TeleChat 全系列升级:TeleChat2、2.5 与 T1
TeleAI 团队同步发布三个模型的技术报告,展示了从预训练到后训练阶段的完整升级路径。6
通俗解释:TeleChat2 在 10 万亿高质量 token 上预训练,再经过 SFT(有监督微调)和 DPO(偏好优化)两个阶段,性能大幅超越上一代。TeleChat2.5 和 T1 在此基础上加入了「领域持续预训练」——用特定行业数据进一步强化,再结合强化学习(RL)完成后训练。
三个模型代表了不同的能力-成本权衡点,报告中有详细的基准测试对比(具体数字见原文)。架构改动极小,性能提升主要来自训练策略优化。
审稿状态:预印本(arXiv: 2507.18013)
7. Swin Transformer 的升级版:Iwin Transformer
一篇解决「局部与全局注意力不兼容」的视觉 Transformer 架构论文,代码已开源。7
通俗解释:图像识别领域长期存在一个矛盾:CNN 擅长看局部细节,Transformer 擅长关注全局关系,但把两者结合起来通常要用两个连续模块轮流处理,效率低还容易信息丢失。
Iwin Transformer 用「交错窗口注意力」解决了这个问题——在一个模块内同时处理相邻 token(靠卷积)和远距离 token(靠注意力)。不需要位置编码,可以直接从低分辨率微调到高分辨率。
实验:ImageNet-1K 图像分类 87.4% top-1 准确率,语义分割、视频动作识别均具竞争力。
审稿状态:预印本(arXiv: 2507.18405),代码已开源
8. 用双曲空间做视频检索:HLFormer
哈工大(深圳)、清华深研院、鹏城实验室、香港科大联合提出,针对「用一句话找一个视频的相关片段」这个任务做了几何空间上的创新。8
通俗解释:「部分相关视频检索(PRVR)」是这样的场景——你输入「这个人在做什么」,系统要在一段完整的未剪辑视频里找到相关片段,而不是整段都相关。
难点在于:视频内容有天然的层次结构(场景→动作→细节),而平时把图文映射到向量的做法(欧氏空间)处理不好层次关系,容易搞错。HLFormer 把视频编码部分放进「双曲空间」——这是一种能天然表示树形层次关系的数学空间,就像家谱图的分叉结构比平面坐标更适合表示父子关系。
结果超越了现有最优方法(具体指标见原文)。
审稿状态:预印本(arXiv: 2507.17402)
9. GloVe 词向量 2024 新版:Stanford NLP 十年后续作
Stanford NLP 团队(同一批核心作者)更新了 2014 年发布的 GloVe 词向量模型。9
通俗解释:词向量是把单词变成数字的方法,让机器能做词语运算——「国王 - 男人 + 女人 ≈ 女王」。2014 年 Stanford 的 GloVe 是被引用最广泛的词向量之一,但它从没见过「covid」「GPT」这些词,也没更新过。
新版 GloVe 用 2024 年的语料重训,解决了旧版的词汇表过时问题,减少词汇表外(OOV)错误,也更好地反映了词义的变化(比如「cloud」在 2014 年主要指天上的云,现在主要指云计算)。这对轻量级 NLP 任务(不需要大模型的场景)仍有很高的实用价值。
审稿状态:预印本(arXiv: 2507.18103)
10. AI「看物体」的新方式:Spelke 分割
Stanford 大学与 OpenAI 联合,提出了一种根植于发展心理学的图像分割思路。10
通俗解释:传统图像分割会根据语义(「这是一只猫」「这是一把椅子」)来切割图像。但 Spelke objects(斯佩尔克对象)是发展心理学家 Elizabeth Spelke 提出的概念:婴儿从来不先学「这是猫」,而是先学「什么东西会一起动」——一起运动的部分才算同一个物体。
这篇论文把这个思路转化为 AI 算法:不依赖分类标签,而是基于「如果我戳这里,什么会跟着动」来定义物体边界。他们构建了 SpelkeBench 评测集,训练了 SpelkeNet 视觉世界模型,在物理操作任务(3DEditBench)上超过了 SAM(Segment Anything Model)。
对机器人抓取、物理仿真等需要「理解物体如何运动」的场景有直接价值。
审稿状态:预印本(arXiv: 2507.16038)
11. 用深度学习估年龄+判性别,用于广告定向
来自巴基斯坦 COMSATS 大学和拉合尔工程技术大学的研究,探索从人脸图像同时完成年龄估计与性别分类。11
通俗解释:这是一个实用向的应用研究,设计了定制 CNN 架构,利用「年龄特征和性别特征在人脸上本来就相互关联」这一点,让一个模型同时学习两个任务,而不是两个模型各学一个。
结果:性别分类准确率达到 95%,年龄估计平均误差为 5.77 岁。研究也如实指出了模型的弱点:对年轻人的年龄估计准确率比其他年龄段低,作者建议通过数据增强和针对性优化来改进。
审稿状态:单人 / 小机构投稿,同行评审状态未知,需读者自行判断可信度。
1234567891011
Add more perspectives or context around this Drop.