
HuggingFace 论文日报 · 2025/05/20:11 篇热门论文通俗解读
今日 HuggingFace trending 11 篇论文通俗解读,覆盖大模型训练稳定性(Qwen3 GSPO)、推理效率(MUR)、短片生成(Captain Cinema)、视觉生成、3D 地表建模、词向量更新等方向,帮你快速判断是否值得深读。

研究速览
HuggingFace 论文日报 · 2025/05/20
今天 HuggingFace trending 上有 11 篇论文,覆盖大模型训练、推理效率、视频生成、视觉理解等方向。以下是每篇论文的通俗解读,帮你快速判断是否值得深读。
1. GSPO:让大模型强化学习训练更稳定
论文:Group Sequence Policy Optimization 1
机构:阿里巴巴 Qwen 团队
方向:大语言模型训练(强化学习)
状态:预印本
你可以把它理解成什么? 现在训练大模型的一个重要步骤,是用强化学习让模型越来越会「说有用的话」——但这个过程很不稳定,尤其是大型 MoE 模型(一种把多个小专家模型拼在一起的架构),训练时经常「抖动」。
GSPO 的核心改变只有一条:之前计算「这个回答好不好」是逐词计算的(token 级),GSPO 改成了逐句或逐段(sequence 级)。这个改动看起来微小,但效果相当明显——训练稳定了,效果也更好,并且 Qwen3 模型用了 GSPO 后性能有明显提升。
对比 GRPO(当前主流强化学习算法):GSPO 把奖励计算单元从 token 升到 sequence,裁剪操作也随之在 sequence 层面做,减少了梯度方差,训练曲线更平滑。
实验结论:GSPO 在效率和性能上均优于 GRPO,MoE 模型训练稳定性显著提升。已应用于 Qwen3 正式版本。
代码:论文未单独提供,已集成在 Qwen3 训练管线中。
2. MUR:让大模型「想清楚再说」,省掉多余的推理
论文:MUR: Momentum Uncertainty guided Reasoning 2
机构:西安交通大学、南洋理工大学、北京大学、新加坡国立大学
方向:推理效率优化(测试时计算)
状态:预印本,代码已开源(GitHub)
你可以把它理解成什么? 有些大模型在回答问题时喜欢「内耗」——一道简单的加法题也要想三四步,多出来的步骤纯粹是浪费算力。怎么让模型「想到位了就停,别继续冗余推理」?
MUR 借鉴了物理学里的「动量」概念:如果模型在推理过程中的「不确定感」一直很低(动量趋于稳定),说明已经推出答案了,可以停;如果不确定感仍在起伏,说明还需要继续推。整个过程不需要额外训练,推理时直接使用。
方法亮点:不用训练额外参数,直接在推理阶段动态控制计算步数,适配不同难度的题目。
实验结论:在多个推理基准上,MUR 在不降低准确率的情况下减少了不必要的 token 消耗,具体节省比例依任务难度而定(论文全文数据表见原文)。
3. Captain Cinema:AI 生成短片,不只是一段视频
论文:Captain Cinema: Towards Short Movie Generation 3
机构:字节跳动 Seed、约翰斯·霍普金斯大学、斯坦福大学、香港中文大学
方向:视频生成(长视频 / 故事连贯性)
状态:预印本
你可以把它理解成什么? 当前 AI 视频生成的最大问题不是「画质差」,而是「前后对不上」——同一个角色从这个镜头到下个镜头换了脸,场景前后脱节。这篇论文想解决的就是这件事:给一段故事文字,生成一部前后连贯的短片。
Captain Cinema 的做法分两步走:
- 先规划关键帧(自上而下):给定故事梗概,先生成若干关键帧,把整个叙事骨架固定下来。这一步保证角色外貌、场景布局全局一致。
- 再填充中间画面(自下而上):用一个支持长上下文的视频生成模型,以关键帧为锚点,生成帧与帧之间的动态过渡。
方法亮点:「关键帧先行 + 视频补帧」的分层架构,比端到端直接生成长视频在连贯性上更可控。
实验结论:在故事连贯性和视觉一致性上优于此前基线,具体指标详见论文。
4. TTS-VAR:视觉自回归模型的测试时计算缩放
论文:TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation 4
机构:香港大学 MMLab、通义实验室(阿里)、香港中文大学
方向:图像生成(自回归模型 + 测试时缩放)
状态:预印本
你可以把它理解成什么? 生成图片的 AI 模型有两大流派:扩散模型(Stable Diffusion 那一套)和自回归模型(像 GPT 逐字生成、这里是逐块生成图片)。自回归生成图片的方式叫 VAR。
「测试时缩放」是最近很热的概念:模型不额外训练,但在推理时多做几步思考,质量就能提升。TTS-VAR 把这个思路搬到了图像生成的自回归模型上——把生成图片的过程建模成一个「路径搜索」问题,自适应地决定在哪些步骤多想几步、在哪些步骤可以快进。
方法亮点:据论文所述,这是首个针对 VAR 图像生成模型的测试时缩放框架;引入「自适应下降」机制动态平衡计算效率和探索能力。
实验结论:在图像生成质量指标上有提升,同时保持计算可控(具体 FID 等指标见论文全文)。
5. EarthCrafter:AI 生成你没去过的地球地表
论文:EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion 5
机构:阿里巴巴 DAMO Academy、复旦大学
方向:3D 生成(地理场景)
状态:预印本,项目页面:[https://whiteinblue.[github.io/earthcrafter/](https://whiteinblue.github.io/earthcrafter/)](https://github.io/earthcrafter/](https://whiteinblue.github.io/earthcrafter/))
你可以把它理解成什么? 这篇论文要做的事情有点像「给 Google 地球加 AI 生成能力」:输入一张卫星图或语义地图,AI 能生成对应位置的三维地表模型——包括地形起伏、道路分布、建筑位置。
它的难点在于规模:真实地球地表又大又细,普通的扩散模型处理不来。EarthCrafter 用了一种叫「双稀疏潜扩散(Dual-Sparse Latent Diffusion)」的方法,简单说就是:只对「有信息的地方」精细处理,空旷区域粗略处理,大幅降低计算压力。
实验结论:在单视角语义条件生成和无条件生成任务上,视觉效果优于此前方法(见项目页面演示)。
6. TeleChat2 系列:国内又一款训练技术全披露的大模型
论文:Technical Report of TeleChat2, TeleChat2.5 and T1 6
机构:中国电信 TeleAI
方向:大语言模型(技术报告)
状态:预印本(技术报告形式)
你可以把它理解成什么? 这是中国电信人工智能研究院(TeleAI)发布的三代模型技术报告,系统介绍了 TeleChat2、TeleChat2.5 和 T1 三个版本的训练方法。
核心信息:
- TeleChat2 在 10 万亿高质量 token 上预训练,之后用 SFT(有监督微调)和 DPO(直接偏好优化)增强;
- TeleChat2.5 和 T1 在此基础上加入了持续预训练阶段,用特定领域数据集 + 强化学习进一步提升;
- 论文强调:架构改动不大,性能提升主要靠训练策略升级。
对希望了解「国内大模型怎么训」的研究者来说,这份报告有一定参考价值。
7. 新版 GloVe:词向量的 2024 年更新
论文:A New Pair of GloVes 7
机构:斯坦福 NLP 组
方向:词表示学习(NLP 基础工具)
状态:预印本
你可以把它理解成什么? GloVe(全称 Global Vectors for Word Representation)是一个已经用了十年的「词向量」工具——简单说,它能把每个词变成一组数字,让计算机理解词与词之间的语义关系。2014 年斯坦福发布的初版 GloVe 至今还在被大量使用。
问题来了:世界变了。「covid」这个词在 2014 年的训练数据里根本不存在,它的向量在老版 GloVe 里就是一片空白。斯坦福 NLP 组这次用新数据重新训练了 GloVe,修了这些「未登录词」问题,并且详细记录了数据版本和预处理步骤(原版论文没有记录这些,一直是个缺陷)。
方法亮点:非技术创新,核心贡献是「更新 + 文档化」——让 GloVe 覆盖 2024 年的词汇,同时提高可复现性。
实验结论:在下游任务中,新版 GloVe 减少了未登录词问题,在多个基准上表现有所提升。
8. Spelke 分割:用「物体会怎么移动」来理解场景
论文:Discovering and using Spelke segments 8
机构:斯坦福大学、OpenAI、Noetik Inc.
方向:计算机视觉(目标分割)
状态:预印本
你可以把它理解成什么? 通常,AI 识别图片里的物体是靠「类别」——这是一只猫、那是一把椅子。但人类理解物体还有另一个方式:「这些东西碰了之后会一起移动吗?」——拼图的一块、搭积木的一组、放在一起的一摞书,它们在物理上「绑定」在一起。
Spelke 物体(Spelke objects)来自发展心理学,指的是婴儿识别世界时用的那种「物理实体」概念——不依赖类别,只看物理运动规律。这篇论文把这个概念用到了计算机视觉上:
- 构建了 SpelkeBench 数据集,标注了真实图像里的 Spelke 分割;
- 提出了 SpelkeNet,一种通过预测「这里戳一下,场景里什么会动」来做分割的视觉世界模型。
实验结论:在 SpelkeBench 上,SpelkeNet 超过了有监督基线 SAM(Segment Anything Model);在物体操作下游任务(3DEditBench)上表现也更好。
9. Iwin Transformer:更聪明地连接远近信息
论文:Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows 9
机构:论文未披露具体机构
方向:计算机视觉(视觉 Transformer 架构)
状态:预印本,代码已开源(GitHub)
你可以把它理解成什么? Swin Transformer 是图像理解领域的经典模型,它把图片切成一个个「窗口」,在窗口内做注意力计算——好处是省算力,但缺点是相邻窗口之间的信息连接需要两个连续的模块才能做到,有点绕。
Iwin Transformer 的改动思路:用「交错窗口注意力(Interleaved Window Attention)」+ 深度可分离卷积组合,在一个模块内同时完成「远距离信息连接(注意力)」和「相邻信息连接(卷积)」,不再需要两步。同时它去掉了位置编码,允许模型直接从低分辨率微调到高分辨率。
实验结论:ImageNet-1K 分类 top-1 准确率 87.4%;在语义分割和视频动作识别任务上也有竞争力表现。
10. 人脸年龄与性别同时识别:为精准广告服务
论文:Deep Learning-Based Age Estimation and Gender Classification for Targeted Advertisement 10
机构:论文未披露具体机构(单人投稿,同行评审状态未知)
方向:计算机视觉(人脸分析)
状态:预印本,此为单人投稿且无机构信息,同行评审过程不确定
你可以把它理解成什么? 这篇论文设计了一个 CNN 模型,同时做两件事:从人脸图片推断年龄、判断性别。应用场景是精准广告投放——根据路过广告牌的真实人群特征,实时调整显示内容。
方法亮点:把年龄估计和性别分类作为同一网络的两个输出,让模型同时学习两个任务,相互共享人脸特征表示,比两个独立模型效率更高。
实验结论:性别分类准确率 95%;年龄估计平均绝对误差(MAE)5.77 岁。作者指出,模型在识别年轻人年龄时误差偏大,未来需要针对性的数据增强。
11. HLFormer:用双曲空间理解视频与文字的层级关系
论文:HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning 11
机构:论文未披露具体机构
方向:视频检索(跨模态匹配)
状态:预印本,代码已开源(GitHub)
你可以把它理解成什么? 「用文字检索视频」这个任务比想象中难——因为你的一句描述,可能只对应视频里的某一段,而不是整段视频。这叫「部分相关视频检索(PRVR)」。
难点在于视频是有层级结构的:一句话 → 一个片段 → 整段视频,这种层级关系用普通的欧式空间表示会失真(因为欧式空间里「层级嵌套」的几何表达很不自然)。
HLFormer 把双曲空间(Hyperbolic Space)引入了这个任务——双曲空间有个特点,离中心越远、「层级越低」,天然适合表达从一般到具体的语义层级。它结合了 Lorentz 注意力块(处理层级信息)和欧式注意力块(处理局部关系),并引入了一个「偏序保留损失」强制文本语义在视频语义的「子集关系」里对齐。
实验结论:在标准 PRVR 基准上超越现有最优方法,具体指标详见论文。
数据来源:HuggingFace Daily Papers · 2025-05-20
围绕这条内容继续补充观点或上下文。