HuggingFace 论文日报 · 2025 年 5 月 22 日

今天 HuggingFace 上热度最高的 11 篇论文，值得重点关注的有两条主线：一是让 AI 更「省着用」——多篇论文专门研究如何用更少的计算资源达到更高的效果，而不是一味堆算力；二是让 AI 真正「看懂」世界——从自动拍短片、生成真实地形，到像婴儿一样理解物体边界，视觉 AI 这周进展密集。

1. GSPO：阿里 Qwen3 背后的训练秘密武器

论文：Group Sequence Policy Optimization 1

训练大语言模型的最后一步通常是「强化学习」——让模型根据反馈不断调整，就像人类通过对错反馈学习一样。但这一步历来不稳定，稍有不慎模型就会「跑偏」。

阿里 Qwen 团队这次提出的 GSPO，核心改动只有一处：把评分单位从「每个 token（字）」改成「整个句子」。

之前的做法（如 GRPO）是把模型的每个输出词单独打分、单独裁剪。GSPO 改成先把整句话的可能性算出来，整体打分，整体更新。听起来是小调整，但效果是：

训练更稳定，尤其是混合专家（MoE）这类复杂模型结构，以前容易崩，现在不了
训练效率更高，相比 GRPO 明显提升
实际效果更好，Qwen3 系列最新模型的显著提升，有一大部分要归功于此

用一个类比：之前是给学生逐字打分（这个字用得好/不好），GSPO 改成按整句话来评价，反馈更自然，学生进步也更快。

2. MUR：让模型「知道自己在想什么」，算力减半还更准

论文：Momentum Uncertainty-guided Reasoning 2

当前最强的 AI 模型（比如 o1 系列、Qwen3）在回答难题前会先「想一想」，这个过程叫 Chain-of-Thought（思维链）。但问题是：模型不知道什么时候该多想，什么时候可以少想，结果容易在简单题上也花大量 token 反复推敲，纯属浪费。

西安交大等高校提出的 MUR，借鉴了物理学里「动量」的概念——物体运动时带有惯性，你推它一下它会继续走。MUR 的逻辑：

每一步推理，模型都会有一个「不确定程度」（不确定自己说的对不对）
MUR 持续追踪这个不确定程度，并像动量一样把它累积起来
如果累积不确定度高，说明这步比较关键，多分配一点思考；如果已经很确定了，就快点往前走

实验结果（在 Qwen3 系列上测试）：平均计算量减少 50% 以上，同时准确率还提升了 0.62%–3.37%。而且不需要重新训练模型，直接在推理时用。

3. Captain Cinema：给 AI 一段剧情描述，它拍出完整短片

huggingface.co

Captain Cinema: Towards Short Movie Generation

ByteDance、Stanford 联合研究：输入文字剧情，AI 自动生成叙事连贯短片。自上而下关键帧规划 + 自下而上视频合成，解决多场景一致性难题。

リンクプレビューを読み込んでいます…

论文：Captain Cinema: Towards Short Movie Generation 3

来自 Johns Hopkins、ByteDance Seed、Stanford 的联合研究，目标是：输入文字剧情，输出一段叙事连贯的 AI 短片。

现有的 AI 视频生成（如 Sora）擅长生成几秒到几十秒的单镜头，但一旦涉及「多个场景、多个角色、前后情节连贯」，就容易乱。角色换了脸，场景前后对不上，是常见问题。

Captain Cinema 的解法分两步：

第一步（自上而下）：先生成一组「关键帧」——类似漫画的分镜草图，把整个故事的重要节点用图像固定下来。这一步确保了人物长相、场景风格在整部短片里保持一致。

第二步（自下而上）：再用一个专门训练的视频模型，在关键帧之间「插帧」，生成动态过渡画面。这个模型支持长上下文，能看见前后多帧来保持流畅。

两步结合，让 AI 真正「懂剧情」而不只是生成好看的片段。项目页：thecinema.ai

4. EarthCrafter：AI 生成逼真 3D 地球地形，规模扩大到几千平方公里

huggingface.co

EarthCrafter: Scalable 3D Earth Generation

阿里 DAMO 院 + 复旦大学：用稀疏双 VAE 分离几何和纹理，配合条件扩散生成大规模真实地形。配套数据集 Aerial-Earth3D 包含 5 万场景、4500 万帧谷歌地球航拍图。

リンクプレビューを読み込んでいます…

论文：EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion 4

阿里 DAMO 院、复旦大学合作，用 AI 生成「大规模 3D 地球表面」——不是一小块地形，而是动辄几千平方公里的地图，且有真实的地形结构和地面纹理。

他们面临的核心挑战：地理尺度太大，直接用现有 3D 生成方法算不了。

解决思路是「把难题拆开」：先用两个独立的「稀疏 VAE」（压缩网络）分别处理「几何结构」和「表面纹理」，把海量的三维数据压缩成紧凑的表示。然后用一个条件扩散模型，接受语义信息（比如「这里是城市」「这里是山地」）或图像作为输入，灵活生成目标地形。

为了训练这个模型，他们还顺手建了一个目前最大的航拍 3D 数据集 Aerial-Earth3D：5 万个场景，每个场景 600m×600m，覆盖美国全境，共 4500 万张多角度谷歌地球影像。应用场景包括游戏场景生成、卫星图像分析、城市规划仿真。

5. TTS-VAR：图像生成也能「测试时缩放」，质量提升 8.7%

论文：TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation 5

「测试时缩放」（Test-Time Scaling）本来是语言模型的技巧——推理的时候多花点算力，让模型想得更久，效果更好。这篇论文把这个思路搬到了图像生成领域。

背景知识：视觉自回归模型（VAR）生成图像的方式类似写文章——先确定大概轮廓，再逐步填细节，是一个从粗到细的过程。

TTS-VAR 把图像生成变成了一个「路径搜索问题」：

粗粒度阶段（确定整体结构）：同时生成多个候选版本，用聚类算法保证这些候选方向不重复，覆盖多种可能性
细粒度阶段（填充细节）：从候选中挑最有潜力的，根据历史生成记录打分，优先继续发展好苗子

在 Infinity 模型上的实验：GenEval 评分从 0.69 提升到 0.75，提升了 8.7%，且不需要额外训练。

6. TeleChat2/T1：中国电信开源 115B 大模型，声称超越 GPT-4o

论文：Technical Report of TeleChat2, TeleChat2.5 and T1 6

中国电信 TeleAI 开源了一个系列模型，包含 35B 和 115B 两个规格，已公开发布。

三个模型定位不同：

TeleChat2：基础版，10 万亿 token 预训练，经过 SFT 和 DPO 微调
TeleChat2.5：速度优先，适合需要快速响应的场景
T1：推理优先，支持长 CoT（链式思维），数学和代码任务显著提升，声称 115B 版本超过 OpenAI o1-mini 和 GPT-4o

技术路线上，T1 比前两者多了一步「领域数据持续预训练 + 强化学习」，专门针对复杂推理任务打磨。模型已全部公开，可以直接下载使用。

7. A New Pair of GloVes：斯坦福词向量时隔 10 年大更新

论文：A New Pair of GloVes 7

GloVe（全局词向量）是 2014 年斯坦福发布的词嵌入模型，在深度学习时代来临之前，是 NLP 领域用得最广的词表示工具之一。直到今天，还有大量下游任务在用它。

但 2014 年的语料库已经 11 年没更新了。语言在变，新词层出不穷（比如「GPT」「ChatGPT」「meme」的现代含义），一些老词的语义也发生了偏移。

斯坦福 NLP 组这次用 Wikipedia、Gigaword 和 Dolma 语料库重新训练了 GloVe，结果：

新词覆盖率提升（解决「词表外词 OOV」问题）
在当代命名实体识别任务（NER）上明显更好，尤其是涉及非西方新闻时
类比和相似度等基础任务表现持平

更新本身没什么惊天动地的创新，但对所有还在用 GloVe 的项目来说是一次实际可用的升级。

8. SpelkeNet：让 AI 像婴儿一样理解「哪些东西是一个整体」

huggingface.co

Discovering and using Spelke segments

斯坦福 + OpenAI 联合研究：用「如果推它，哪些部分会一起动」的物理直觉来分割图像，超越了 SAM（Segment Anything），在 3D 物体操纵任务上效果明显更好。

リンクプレビューを読み込んでいます…

论文：Discovering and using Spelke segments 8

这是今天最有意思的一篇，来自斯坦福和 OpenAI。

背景：计算机视觉里的「分割」（segmentation）通常靠语义——AI 认出「这是一只猫」，然后把猫的轮廓画出来。但人类婴儿在还不认识猫的时候，已经能理解「这一块东西是一个整体，会一起动」——发展心理学家把这种理解称为「Spelke 对象」。

Spelke 对象的判断标准不是「这是什么」，而是「如果我推它，哪些部分会一起动」。这种理解对机器人抓取、物体操纵、3D 场景编辑等任务很有用——因为这些任务真正需要的是「知道哪些东西是一个物理整体」，而不是「知道它叫什么名字」。

斯坦福团队训练了一个叫 SpelkeNet 的视觉世界模型，专门预测：如果我在图片某个地方「戳一下」，周围什么区域会跟着动？通过大量这样的「虚拟戳」，模型统计出哪些区域运动模式高度相关，从而发现 Spelke 分割。

实验结果：SpelkeNet 在 SpelkeBench 数据集上超过了 SAM（Segment Anything），且在 3D 物体操纵任务上效果明显更好。

9. Iwin Transformer：新视觉 Transformer，解决 Swin 的「视野受限」问题

论文：Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows 9

Swin Transformer 是 2021 年微软提出的视觉模型，至今仍是图像识别领域的主流基础架构之一。它的核心机制是「窗口注意力」——把图像切成小块，每块内部做自注意力，相邻块之间交替滑动来实现信息传递。

Swin 的问题：要实现全局信息交换，需要连续两个 block 才能完成，相当于两步走。

Iwin Transformer 的改法：用交错窗口注意力（Iwin attention）+ 深度可分离卷积在同一个 module 内完成——注意力连接远处的 token，卷积连接近处的 token，一步到位。同时去掉了位置编码，这样模型可以直接从低分辨率训练完再接着高分辨率微调，不需要重新预训练。

ImageNet-1K 分类任务达到 87.4% top-1 准确率，在语义分割和视频动作识别任务上也有竞争力。代码已开源：github.com/cominder/Iwin-Transformer

10. HLFormer：用双曲空间理解视频层次结构

论文：HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning 10

「部分相关视频检索」（PRVR）是一个实际问题：用户搜索「猫咪爬上桌子」，但视频库里的视频往往是 20 分钟的家庭录像，「猫咪爬桌子」只占其中一段。怎么找到这段？

现有方法用欧几里得空间（普通的几何空间）表示视频，但视频本身有「层次结构」——整体故事 > 场景 > 片段 > 帧，这种树形结构在双曲空间里表达更自然（类比：把一棵树展开在平面上会失真，但在双曲几何里可以等比例保留层级关系）。

HLFormer 把两种空间结合起来：普通欧几里得注意力 + 双曲 Lorentz 注意力，同时引入「偏序保留损失」，确保「文本描述 < 视频整体」的语义层次关系在模型中被正确维持。结果在多个基准上超过了当前最强方法。

11. 面孔年龄+性别同时识别：用于精准广告投放

论文：Deep Learning-Based Age Estimation and Gender Classification for Targeted Advertisement 11

这篇论文相对应用导向，提出了一个同时估计年龄和性别的 CNN 模型，用于广告精准投放。

关键做法：把年龄预测和性别分类放在同一个网络里同时训练，共享底层的面部特征提取，让两个任务互相辅助（比如性别特征对年龄估计有帮助）。

实验结果：性别分类准确率达 95%，年龄估计平均误差 5.77 岁。主要挑战是年轻人的年龄估计误差偏大，作者指出后续需要针对性数据增强。

本日报每日更新，追踪 HuggingFace 热门论文并附通俗解读。

HuggingFace 论文日报 · 2025年5月22日：AI 学会「省着算」，也学会「看世界」

HuggingFace 论文日报 · 2025 年 5 月 22 日

1. GSPO：阿里 Qwen3 背后的训练秘密武器

2. MUR：让模型「知道自己在想什么」，算力减半还更准

3. Captain Cinema：给 AI 一段剧情描述，它拍出完整短片

Captain Cinema: Towards Short Movie Generation

4. EarthCrafter：AI 生成逼真 3D 地球地形，规模扩大到几千平方公里

EarthCrafter: Scalable 3D Earth Generation

5. TTS-VAR：图像生成也能「测试时缩放」，质量提升 8.7%

6. TeleChat2/T1：中国电信开源 115B 大模型，声称超越 GPT-4o

7. A New Pair of GloVes：斯坦福词向量时隔 10 年大更新

8. SpelkeNet：让 AI 像婴儿一样理解「哪些东西是一个整体」

Discovering and using Spelke segments

9. Iwin Transformer：新视觉 Transformer，解决 Swin 的「视野受限」问题

10. HLFormer：用双曲空间理解视频层次结构

11. 面孔年龄+性别同时识别：用于精准广告投放

参考ソース

Captain Cinema: Towards Short Movie Generation

EarthCrafter: Scalable 3D Earth Generation

Discovering and using Spelke segments