
HuggingFace 论文日报
2026. 05. 20. 19:50:49@Graf
HF 论文日报 · 0520:Qwen3 训练算法、AI 短片生成、3D 地球建模等 8 篇
今日 HuggingFace 热门论文通俗解读:GSPO(Qwen3 背后的强化学习算法)、MUR(推理时省 50% 算力)、Captain Cinema(AI 自动导演短片)、EarthCrafter(生成真实比例 3D 地形)等 8 篇,面向 AI 从业者快速筛选阅读。
리서치 브리프
HuggingFace 论文日报 · 2025-05-20
今日 HuggingFace 上线 8 篇热门论文,覆盖强化学习算法、推理效率、AI 视频生成、3D 地形建模和词向量更新。以下按通俗程度逐一解读。
GSPO:让 Qwen3 成功背后的强化学习算法
论文:Group Sequence Policy Optimization 1
你可能听说过 Qwen3 最近表现很厉害——这篇论文就是 Qwen3 背后一个关键训练方法的技术披露。
AI 大模型训练的最后阶段通常要用「强化学习」来让模型变得更听话、更聪明。现有的主流方法(GRPO)有一个设计缺陷:它按每个单词(token)来计算「这个输出好不好」,这就像在阅卷时,老师对每个字逐字打分,而不是看整段回答。这种方式在训练混合专家模型(MoE)时容易不稳定,训练会「翻车」。
GSPO 的改动很直接:把评判单位从「每个词」换成「整段回答」。打个比方:与其纠结演员每个动作好不好,不如看完整场表演再打分。这样做的结果是训练更稳定,同样的算力能出更好的效果。阿里巴巴团队还说 GSPO 有潜力简化强化学习的工程基础设施,这对工业界降本意义较大。
受众提示:如果你在做 LLM 微调,GSPO 是 GRPO 的强力替代选项,尤其在 MoE 架构下稳定性优势明显。
- 机构:阿里巴巴(Qwen 团队)
- 状态:预印本,已用于 Qwen3 生产
MUR:让 AI「别想太多」,省算力还提准确率
论文:Momentum Uncertainty guided Reasoning 2
这篇论文解决的问题很有意思:现代推理模型(比如 o1、Qwen3 带思考模式的版本)会「过度思考」——遇到一道简单数学题,它会在脑子里绕很多弯路,浪费大量 token,但答案不见得更准。
MUR(动量不确定性引导推理)的思路来自物理学的「动量」概念。物体运动有惯性,当它方向明确时不需要频繁调整;当它方向不确定时才需要更多修正。MUR 对推理步骤也这样处理:追踪每一步推理的「不确定程度」,只在真的不确定时多分配算力,确定的步骤直接跳过。
实验在 MATH-500、AIME24、AIME25、GPQA-diamond 四个数学/科学推理基准上,用 Qwen3 1.7B/4B/8B 三个尺寸测试,结果:算力平均减少超过 50%,准确率还提升了 0.62–3.37%。不需要重新训练模型,只在推理阶段使用。
- 机构:未披露(作者信息未公开)
- 状态:预印本
Captain Cinema:AI 自动导演短片
论文:Captain Cinema: Towards Short Movie Generation 3
生成一段 5 秒的视频现在已经很普通了,但生成一段叙事完整、角色前后一致的「短片」——仍然是个硬骨头。这篇论文来自字节跳动和约翰霍普金斯大学,提出了一个叫 Captain Cinema 的框架,专门解决这个问题。
核心思路分两步:
- 先画「故事板」(Top-down 规划):给定一段故事文字描述,先生成一组关键帧——就像导演在拍摄前画分镜草图,确保整部影片的场景、角色外貌、情节逻辑前后一致。
- 再填充中间画面(Bottom-up 合成):以关键帧为锚点,用视频合成模型补全帧间的动态过渡,让画面流畅自然。
支撑这一切的是一种针对多模态扩散 Transformer(MM-DiT)的「交错训练策略」,让模型能理解超长上下文的视频数据。项目主页可以看效果视频:thecinema.ai
- 机构:字节跳动 + 约翰霍普金斯大学
- 状态:预印本
TTS-VAR:让图像生成模型「多想几秒」出更好图
论文:TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation 4
「测试时缩放」(Test-Time Scaling)是 AI 领域最近很热的一个思路:模型训练完之后,不改参数,只让它在推理时多想一会儿,效果就能变好。这个思路在语言模型(比如 o1)上已经验证了,这篇论文把它移植到了图像生成领域。
视觉自回归模型(VAR)生成图片的方式类似:先画低分辨率的轮廓,再逐步细化到高分辨率。TTS-VAR 把这个过程看作「路径搜索」:在生成的每一步,同时维持多条候选方案,然后通过两种策略筛选最好的:
- 早期(轮廓阶段):用聚类的方法保留多样性,避免过早都走向同一个平庸方案
- 晚期(细节阶段):用「潜力分」筛选最有希望的候选,重点投入算力
在 Infinity 模型上测试,GenEval 分数从 0.69 提升到 0.75,提升了 8.7%。代码已开源:github.com/ali-vilab/TTS-VAR
- 机构:阿里巴巴
- 状态:预印本
EarthCrafter:用 AI 生成真实比例的三维地球表面
论文:EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion 5
现有的 3D 生成模型擅长生成一把椅子、一只猫,但如果要生成「一片 600 平方公里的地形」,算力直接爆炸。这篇论文专门解决这个量级的问题。
研究团队先自建了一个叫 Aerial-Earth3D 的航拍数据集:从 Google Earth 抓取了覆盖美国大陆的 5 万个场景,每个场景 600m×600m,共 4500 万帧多视角图像,附带深度图、法线图、语义分割等信息。这是目前已知最大的三维航拍数据集。
在模型架构上,EarthCrafter 用了「双稀疏 3D-VAE」分别压缩几何形状和纹理,把庞大的地形数据压缩进可计算的潜在空间,再用「条件感知流匹配」模型灵活生成。实际效果:支持按语义描述生成城市布局,也支持无条件的地形合成。
这个方向对自动驾驶数据增广、卫星图模拟、城市规划模拟有直接应用价值。
- 机构:未披露
- 状态:预印本
TeleChat2/2.5/T1:中国电信开源的 115B 大模型
论文:Technical Report of TeleChat2, TeleChat2.5 and T1 6
中国电信 AI 研究院发布了三个大模型的技术报告,全部开源:
| 模型 | 参数量 | 定位 | 亮点 |
|---|---|---|---|
| TeleChat2 | 35B/115B | 通用基座 | 1 万亿 token 预训练,SFT+DPO 对齐 |
| TeleChat2.5 | 115B | 极速推理 | 在保证质量的前提下推理更快 |
| T1 | 115B | 深度推理 | 支持长链式思维,数学/代码能力强 |
T1-115B 在数学和代码任务上声称超越了 OpenAI 的 o1-mini 和 GPT-4o。架构上三者都是稠密 Transformer(非 MoE),35B 和 115B 版本均公开发布。
- 机构:中国电信(TeleAI)
- 状态:预印本
「新一双 GloVes」:词向量的十年补丁
论文:A New Pair of GloVes 7
GloVe 是 2014 年发布的一个词向量工具,在 BERT/GPT 出现之前是 NLP 的基石工具之一,至今在轻量级应用、可解释性分析中仍常用。问题是:2014 年的数据里没有「covid」「ChatGPT」这些词,在这些词上用旧 GloVe 就会报「词汇表外」错误。
这篇论文做的事很简单:用 2024 年的 Wikipedia、Gigaword 和 Dolma 数据集重新训练了 GloVe,并且这次认真记录了数据版本和预处理细节(原始 2014 版没有好好记录)。测试结果:在词类比、词相似度等传统任务上和旧版持平,在包含新词的 NER(命名实体识别)任务,尤其是非西方新闻数据上表现更好。
对不需要大模型的轻量部署场景,这是一个值得替换的更新。
- 机构:未披露(学术团队)
- 状态:预印本
Spelke 分割:让 AI 像婴儿一样理解「哪些东西会一起动」
论文:Discovering and using Spelke segments 8
发展心理学家 Elizabeth Spelke 有一个经典发现:婴儿在学会说话、认识颜色之前,就已经能判断「哪些物体会一起运动」。比如你推一个咖啡杯,婴儿知道杯盖也会跟着动;但桌子不会。这种能力跟物体的「类别」无关,只跟物理运动相关。
计算机视觉里通常用「语义分割」来区分物体(猫、椅子、人...),但这需要大量类别标注,而且同一个类别在不同场景下边界可能不同。这篇论文把 Spelke 的概念引入 CV:训练一个叫 SpelkeNet 的视觉世界模型,专门预测「如果我戳图片里的某个位置,哪些部分会一起动」。
做法:用「虚拟戳」模拟各种扰动,统计哪些区域的位移是相关的,这些区域就属于同一个 Spelke 物体。结果:在新建的 SpelkeBench 数据集上,SpelkeNet 超越了 SAM(Segment Anything Model);在物理对象操作的 3DEditBench 上,各种下游机器人抓取模型用了 Spelke 分割后效果都更好。
对做机器人、具身智能的研究者有直接参考价值。
- 机构:未披露
- 状态:预印本
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.