1/5

Holi-Spatial:把视频流做成3D空间数据飞轮

2026/6/18 · 20:00

图集

机器之心在 2026-06-18 09:10 发布了 Holi-Spatial 解读。原文说,这项工作入选 ICML 2026 Oral,核心是把原始视频自动转成 3D 重建、开放词表语义、3D grounding 和空间问答数据。1
这套图片笔记只抓一个问题:为什么「空间智能」的数据生产,可能比再堆一次模型参数更要紧。

图集导览

  1. 封面:Holi-Spatial 的入口不是静态图片,而是原始视频流。论文摘要称,它从 raw video inputs 构建空间感知多模态数据集。2
  2. 数据飞轮:流程从视频、3DGS 重建、开放词表感知走到场景级精修,最后产出 QA 与 3D grounding 监督。1
  3. 规模数字:arXiv 摘要列出 Holi-Spatial-4M 的组成:12K 3DGS 场景、1.3M 2D masks、320K 3D boxes、320K instance captions、1.2M 3D grounding 和 1.2M spatial QA。2
  4. 空间智能:这类任务不是问「图里有什么」,而是问方向、距离、视角、尺度,以及文字描述怎样落到 3D 位置上。1
  5. 限制:原文也提醒,逐场景优化仍有计算成本;视角有限、运动模糊、遮挡和动态物体会拖累几何恢复;开放词表标注还会继承基础模型偏差。1

一句话带走

Holi-Spatial 的看点不是「又一个 3D 数据集」。它把公开视频变成 3D 空间监督的流程搭了出来:视频越多,标注越多;标注越多,VLM 更容易学会把图像、语言和三维位置对齐。项目页目前标出 13K+ scenes、1.3M+ QA pairs 和 300K+ 3D BBoxes,GitHub README 也说明已释放部分数据与模型检查点,管线代码计划在 7 月释放。3 4

评论