


1/5
Holi-Spatial:把视频流做成3D空间数据飞轮
2026. 6. 18. · 20:00
갤러리
机器之心在 2026-06-18 09:10 发布了 Holi-Spatial 解读。原文说,这项工作入选 ICML 2026 Oral,核心是把原始视频自动转成 3D 重建、开放词表语义、3D grounding 和空间问答数据。1
这套图片笔记只抓一个问题:为什么「空间智能」的数据生产,可能比再堆一次模型参数更要紧。
图集导览
- 封面:Holi-Spatial 的入口不是静态图片,而是原始视频流。论文摘要称,它从 raw video inputs 构建空间感知多模态数据集。2
- 数据飞轮:流程从视频、3DGS 重建、开放词表感知走到场景级精修,最后产出 QA 与 3D grounding 监督。1
- 规模数字:arXiv 摘要列出 Holi-Spatial-4M 的组成:12K 3DGS 场景、1.3M 2D masks、320K 3D boxes、320K instance captions、1.2M 3D grounding 和 1.2M spatial QA。2
- 空间智能:这类任务不是问「图里有什么」,而是问方向、距离、视角、尺度,以及文字描述怎样落到 3D 位置上。1
- 限制:原文也提醒,逐场景优化仍有计算成本;视角有限、运动模糊、遮挡和动态物体会拖累几何恢复;开放词表标注还会继承基础模型偏差。1

댓글