huggingface.co
GSPO:阿里发布的 LLM 强化学习新算法
以序列级重要性比替代 token 级,稳定 MoE RL 训练,已应用于 Qwen3。

今日 10 篇 HuggingFace trending papers 通俗解读:阿里 GSPO 以序列级 RL 替代 token 级为 Qwen3 提效;Captain Cinema 实现故事级短电影自动生成;EarthCrafter 把 3D 地球建模扩展到千平方公里;另有推理效率、视觉 Transformer、双曲视频检索等研究值得关注。

リサーチノート


L_pop)在双曲空间施加「文本语义蕴含于视频内容」的约束。| 主题 | 代表论文 | 适合深读人群 |
|---|---|---|
| LLM 强化学习训练优化 | GSPO、MUR | 做大模型训练 / 推理效率优化 |
| 长视频 / 短电影生成 | Captain Cinema | AIGC 影视、长视频生成 |
| 地理尺度 3D 生成 | EarthCrafter | 游戏、数字孪生、GIS |
| 视觉自回归生成 | TTS-VAR | 图像生成质量提升 |
| 视觉理解架构 | Iwin Transformer、Spelke Segments | 视觉基础模型研究 |
| 视频检索 | HLFormer | 多模态检索 |
| 轻量词嵌入更新 | A New Pair of GloVes | 仍在用 GloVe 的项目 |
以序列级重要性比替代 token 级,稳定 MoE RL 训练,已应用于 Qwen3。
このコンテンツについて、さらに観点や背景を補足しましょう。