HuggingFace 论文日报 · 2025年5月22日:AI 学会「省着算」,也学会「看世界」

HuggingFace 论文日报 · 2025年5月22日:AI 学会「省着算」,也学会「看世界」

今日 HuggingFace 11 篇热门论文双线并进:GSPO/MUR/TTS-VAR 集中攻克推理效率问题,让模型少花算力多出结果;Captain Cinema/EarthCrafter/SpelkeNet 则让 AI 的视觉能力迈上新台阶——从自动拍短片到生成千平方公里真实地形,再到像婴儿一样理解物体边界。

リサーチノート

HuggingFace 论文日报 · 2025 年 5 月 22 日

今天 HuggingFace 上热度最高的 11 篇论文,值得重点关注的有两条主线:一是让 AI 更「省着用」——多篇论文专门研究如何用更少的计算资源达到更高的效果,而不是一味堆算力;二是让 AI 真正「看懂」世界——从自动拍短片、生成真实地形,到像婴儿一样理解物体边界,视觉 AI 这周进展密集。

1. GSPO:阿里 Qwen3 背后的训练秘密武器

论文:Group Sequence Policy Optimization 1
训练大语言模型的最后一步通常是「强化学习」——让模型根据反馈不断调整,就像人类通过对错反馈学习一样。但这一步历来不稳定,稍有不慎模型就会「跑偏」。
阿里 Qwen 团队这次提出的 GSPO,核心改动只有一处:把评分单位从「每个 token(字)」改成「整个句子」
之前的做法(如 GRPO)是把模型的每个输出词单独打分、单独裁剪。GSPO 改成先把整句话的可能性算出来,整体打分,整体更新。听起来是小调整,但效果是:
  • 训练更稳定,尤其是混合专家(MoE)这类复杂模型结构,以前容易崩,现在不了
  • 训练效率更高,相比 GRPO 明显提升
  • 实际效果更好,Qwen3 系列最新模型的显著提升,有一大部分要归功于此
用一个类比:之前是给学生逐字打分(这个字用得好/不好),GSPO 改成按整句话来评价,反馈更自然,学生进步也更快。

2. MUR:让模型「知道自己在想什么」,算力减半还更准

论文:Momentum Uncertainty-guided Reasoning 2
当前最强的 AI 模型(比如 o1 系列、Qwen3)在回答难题前会先「想一想」,这个过程叫 Chain-of-Thought(思维链)。但问题是:模型不知道什么时候该多想,什么时候可以少想,结果容易在简单题上也花大量 token 反复推敲,纯属浪费。
西安交大等高校提出的 MUR,借鉴了物理学里「动量」的概念——物体运动时带有惯性,你推它一下它会继续走。MUR 的逻辑:
  • 每一步推理,模型都会有一个「不确定程度」(不确定自己说的对不对)
  • MUR 持续追踪这个不确定程度,并像动量一样把它累积起来
  • 如果累积不确定度高,说明这步比较关键,多分配一点思考;如果已经很确定了,就快点往前走
实验结果(在 Qwen3 系列上测试):平均计算量减少 50% 以上,同时准确率还提升了 0.62%–3.37%。而且不需要重新训练模型,直接在推理时用。

3. Captain Cinema:给 AI 一段剧情描述,它拍出完整短片

リンクプレビューを読み込んでいます…
论文:Captain Cinema: Towards Short Movie Generation 3
来自 Johns Hopkins、ByteDance Seed、Stanford 的联合研究,目标是:输入文字剧情,输出一段叙事连贯的 AI 短片
现有的 AI 视频生成(如 Sora)擅长生成几秒到几十秒的单镜头,但一旦涉及「多个场景、多个角色、前后情节连贯」,就容易乱。角色换了脸,场景前后对不上,是常见问题。
Captain Cinema 的解法分两步:
第一步(自上而下):先生成一组「关键帧」——类似漫画的分镜草图,把整个故事的重要节点用图像固定下来。这一步确保了人物长相、场景风格在整部短片里保持一致。
第二步(自下而上):再用一个专门训练的视频模型,在关键帧之间「插帧」,生成动态过渡画面。这个模型支持长上下文,能看见前后多帧来保持流畅。
两步结合,让 AI 真正「懂剧情」而不只是生成好看的片段。项目页:thecinema.ai

4. EarthCrafter:AI 生成逼真 3D 地球地形,规模扩大到几千平方公里

リンクプレビューを読み込んでいます…
论文:EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion 4
阿里 DAMO 院、复旦大学合作,用 AI 生成「大规模 3D 地球表面」——不是一小块地形,而是动辄几千平方公里的地图,且有真实的地形结构和地面纹理。
他们面临的核心挑战:地理尺度太大,直接用现有 3D 生成方法算不了
解决思路是「把难题拆开」:先用两个独立的「稀疏 VAE」(压缩网络)分别处理「几何结构」和「表面纹理」,把海量的三维数据压缩成紧凑的表示。然后用一个条件扩散模型,接受语义信息(比如「这里是城市」「这里是山地」)或图像作为输入,灵活生成目标地形。
为了训练这个模型,他们还顺手建了一个目前最大的航拍 3D 数据集 Aerial-Earth3D:5 万个场景,每个场景 600m×600m,覆盖美国全境,共 4500 万张多角度谷歌地球影像。应用场景包括游戏场景生成、卫星图像分析、城市规划仿真。

5. TTS-VAR:图像生成也能「测试时缩放」,质量提升 8.7%

论文:TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation 5
「测试时缩放」(Test-Time Scaling)本来是语言模型的技巧——推理的时候多花点算力,让模型想得更久,效果更好。这篇论文把这个思路搬到了图像生成领域。
背景知识:视觉自回归模型(VAR)生成图像的方式类似写文章——先确定大概轮廓,再逐步填细节,是一个从粗到细的过程。
TTS-VAR 把图像生成变成了一个「路径搜索问题」:
  • 粗粒度阶段(确定整体结构):同时生成多个候选版本,用聚类算法保证这些候选方向不重复,覆盖多种可能性
  • 细粒度阶段(填充细节):从候选中挑最有潜力的,根据历史生成记录打分,优先继续发展好苗子
在 Infinity 模型上的实验:GenEval 评分从 0.69 提升到 0.75,提升了 8.7%,且不需要额外训练。

6. TeleChat2/T1:中国电信开源 115B 大模型,声称超越 GPT-4o

论文:Technical Report of TeleChat2, TeleChat2.5 and T1 6
中国电信 TeleAI 开源了一个系列模型,包含 35B 和 115B 两个规格,已公开发布。
三个模型定位不同:
  • TeleChat2:基础版,10 万亿 token 预训练,经过 SFT 和 DPO 微调
  • TeleChat2.5:速度优先,适合需要快速响应的场景
  • T1:推理优先,支持长 CoT(链式思维),数学和代码任务显著提升,声称 115B 版本超过 OpenAI o1-mini 和 GPT-4o
技术路线上,T1 比前两者多了一步「领域数据持续预训练 + 强化学习」,专门针对复杂推理任务打磨。模型已全部公开,可以直接下载使用。

7. A New Pair of GloVes:斯坦福词向量时隔 10 年大更新

论文:A New Pair of GloVes 7
GloVe(全局词向量)是 2014 年斯坦福发布的词嵌入模型,在深度学习时代来临之前,是 NLP 领域用得最广的词表示工具之一。直到今天,还有大量下游任务在用它。
但 2014 年的语料库已经 11 年没更新了。语言在变,新词层出不穷(比如「GPT」「ChatGPT」「meme」的现代含义),一些老词的语义也发生了偏移。
斯坦福 NLP 组这次用 Wikipedia、Gigaword 和 Dolma 语料库重新训练了 GloVe,结果:
  • 新词覆盖率提升(解决「词表外词 OOV」问题)
  • 在当代命名实体识别任务(NER)上明显更好,尤其是涉及非西方新闻时
  • 类比和相似度等基础任务表现持平
更新本身没什么惊天动地的创新,但对所有还在用 GloVe 的项目来说是一次实际可用的升级。

8. SpelkeNet:让 AI 像婴儿一样理解「哪些东西是一个整体」

リンクプレビューを読み込んでいます…
论文:Discovering and using Spelke segments 8
这是今天最有意思的一篇,来自斯坦福和 OpenAI。
背景:计算机视觉里的「分割」(segmentation)通常靠语义——AI 认出「这是一只猫」,然后把猫的轮廓画出来。但人类婴儿在还不认识猫的时候,已经能理解「这一块东西是一个整体,会一起动」——发展心理学家把这种理解称为「Spelke 对象」。
Spelke 对象的判断标准不是「这是什么」,而是「如果我推它,哪些部分会一起动」。这种理解对机器人抓取、物体操纵、3D 场景编辑等任务很有用——因为这些任务真正需要的是「知道哪些东西是一个物理整体」,而不是「知道它叫什么名字」。
斯坦福团队训练了一个叫 SpelkeNet 的视觉世界模型,专门预测:如果我在图片某个地方「戳一下」,周围什么区域会跟着动?通过大量这样的「虚拟戳」,模型统计出哪些区域运动模式高度相关,从而发现 Spelke 分割。
实验结果:SpelkeNet 在 SpelkeBench 数据集上超过了 SAM(Segment Anything),且在 3D 物体操纵任务上效果明显更好。

9. Iwin Transformer:新视觉 Transformer,解决 Swin 的「视野受限」问题

论文:Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows 9
Swin Transformer 是 2021 年微软提出的视觉模型,至今仍是图像识别领域的主流基础架构之一。它的核心机制是「窗口注意力」——把图像切成小块,每块内部做自注意力,相邻块之间交替滑动来实现信息传递。
Swin 的问题:要实现全局信息交换,需要连续两个 block 才能完成,相当于两步走。
Iwin Transformer 的改法:用交错窗口注意力(Iwin attention)+ 深度可分离卷积在同一个 module 内完成——注意力连接远处的 token,卷积连接近处的 token,一步到位。同时去掉了位置编码,这样模型可以直接从低分辨率训练完再接着高分辨率微调,不需要重新预训练。
ImageNet-1K 分类任务达到 87.4% top-1 准确率,在语义分割和视频动作识别任务上也有竞争力。代码已开源:github.com/cominder/Iwin-Transformer

10. HLFormer:用双曲空间理解视频层次结构

论文:HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning 10
「部分相关视频检索」(PRVR)是一个实际问题:用户搜索「猫咪爬上桌子」,但视频库里的视频往往是 20 分钟的家庭录像,「猫咪爬桌子」只占其中一段。怎么找到这段?
现有方法用欧几里得空间(普通的几何空间)表示视频,但视频本身有「层次结构」——整体故事 > 场景 > 片段 > 帧,这种树形结构在双曲空间里表达更自然(类比:把一棵树展开在平面上会失真,但在双曲几何里可以等比例保留层级关系)。
HLFormer 把两种空间结合起来:普通欧几里得注意力 + 双曲 Lorentz 注意力,同时引入「偏序保留损失」,确保「文本描述 < 视频整体」的语义层次关系在模型中被正确维持。结果在多个基准上超过了当前最强方法。

11. 面孔年龄+性别同时识别:用于精准广告投放

论文:Deep Learning-Based Age Estimation and Gender Classification for Targeted Advertisement 11
这篇论文相对应用导向,提出了一个同时估计年龄和性别的 CNN 模型,用于广告精准投放。
关键做法:把年龄预测和性别分类放在同一个网络里同时训练,共享底层的面部特征提取,让两个任务互相辅助(比如性别特征对年龄估计有帮助)。
实验结果:性别分类准确率达 95%,年龄估计平均误差 5.77 岁。主要挑战是年轻人的年龄估计误差偏大,作者指出后续需要针对性数据增强。

本日报每日更新,追踪 HuggingFace 热门论文并附通俗解读。

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。