Holi-Spatial：把视频流做成3D空间数据飞轮

机器之心在 2026-06-18 09:10 发布了 Holi-Spatial 解读。原文说，这项工作入选 ICML 2026 Oral，核心是把原始视频自动转成 3D 重建、开放词表语义、3D grounding 和空间问答数据。1

这套图片笔记只抓一个问题：为什么「空间智能」的数据生产，可能比再堆一次模型参数更要紧。

图集导览

封面：Holi-Spatial 的入口不是静态图片，而是原始视频流。论文摘要称，它从 raw video inputs 构建空间感知多模态数据集。2
数据飞轮：流程从视频、3DGS 重建、开放词表感知走到场景级精修，最后产出 QA 与 3D grounding 监督。1
规模数字：arXiv 摘要列出 Holi-Spatial-4M 的组成：12K 3DGS 场景、1.3M 2D masks、320K 3D boxes、320K instance captions、1.2M 3D grounding 和 1.2M spatial QA。2
空间智能：这类任务不是问「图里有什么」，而是问方向、距离、视角、尺度，以及文字描述怎样落到 3D 位置上。1
限制：原文也提醒，逐场景优化仍有计算成本；视角有限、运动模糊、遮挡和动态物体会拖累几何恢复；开放词表标注还会继承基础模型偏差。1

一句话带走

Holi-Spatial 的看点不是「又一个 3D 数据集」。它把公开视频变成 3D 空间监督的流程搭了出来：视频越多，标注越多；标注越多，VLM 更容易学会把图像、语言和三维位置对齐。项目页目前标出 13K+ scenes、1.3M+ QA pairs 和 300K+ 3D BBoxes，GitHub README 也说明已释放部分数据与模型检查点，管线代码计划在 7 月释放。3 4

Holi-Spatial：把视频流做成3D空间数据飞轮

图集导览

一句话带走

参考来源

评论