
huggingface.co
Captain Cinema: Towards Short Movie Generation
ByteDance、Stanford 联合研究:输入文字剧情,AI 自动生成叙事连贯短片。自上而下关键帧规划 + 自下而上视频合成,解决多场景一致性难题。

今日 HuggingFace 11 篇热门论文双线并进:GSPO/MUR/TTS-VAR 集中攻克推理效率问题,让模型少花算力多出结果;Captain Cinema/EarthCrafter/SpelkeNet 则让 AI 的视觉能力迈上新台阶——从自动拍短片到生成千平方公里真实地形,再到像婴儿一样理解物体边界。
研究速览

ByteDance、Stanford 联合研究:输入文字剧情,AI 自动生成叙事连贯短片。自上而下关键帧规划 + 自下而上视频合成,解决多场景一致性难题。

阿里 DAMO 院 + 复旦大学:用稀疏双 VAE 分离几何和纹理,配合条件扩散生成大规模真实地形。配套数据集 Aerial-Earth3D 包含 5 万场景、4500 万帧谷歌地球航拍图。

斯坦福 + OpenAI 联合研究:用「如果推它,哪些部分会一起动」的物理直觉来分割图像,超越了 SAM(Segment Anything),在 3D 物体操纵任务上效果明显更好。
围绕这条内容继续补充观点或上下文。