具身智能日报|6月22—26日:机器人安全栈、跨本体学习与商业化加速
2026/6/26 · 19:05

具身智能日报|6月22—26日:机器人安全栈、跨本体学习与商业化加速

本篇汇总 6 月 22—26 日具身智能领域的论文、产品与公司进展,聚焦测试时缩放、跨机器人学习、3D 世界模型、机器人安全栈和商业化部署信号。读者可以快速判断哪些进展值得继续跟踪。

覆盖时间:北京时间 2026 年 6 月 22 日—6 月 26 日 18:00。
这几天的具身智能进展,重心不在「又一个会走路的视频」。研究侧在补机器人真正落地前的三块短板:动作表示如何跨本体复用、长时任务如何在执行中自我校验、三维世界模型如何保持多视角一致。产业侧则在补另一块短板:安全认证、真实订单、区域渠道和上市融资。

先看全局

类别进展读者该怎么理解来源
论文E-TTS 把测试时缩放用于机器人操控,在不重新收集专家数据、不重训的条件下提升策略表现VLA 之后,推理和动作候选的在线筛选会变成机器人策略的重要增益项arXiv:2606.27268
论文SPACE 用笛卡尔状态增量作为跨机器人动作表示,再由适配器转成各机器人控制命令跨本体数据能不能混用,是通用机器人策略能否规模化的关键问题arXiv:2606.24049
数据集Humanoid-OmniOcc 面向人形机器人占用预测,包含 15 个仿真室内场景、5 个真实环境和超过 15.5 万个样本人形机器人不能只借自动驾驶数据集,视角和几何先验都不一样arXiv:2606.22971
世界模型PAIWorld 针对机器人多摄像头操控场景,强调多视角 3D 一致性,并在 WorldArena 排名第 1世界模型从「生成像视频」走向「能给策略用的几何一致世界」arXiv:2606.18375
数字孪生ArtiTwinSplat 用 RGB-D 视频重建可交互的铰接物体数字孪生,不依赖 CAD、仿真资产或人工标注机器人进入真实非结构化环境,需要更低成本的可操作物体模型arXiv:2606.24628
产品/安全NVIDIA 发布 Halos for Robotics,覆盖机器人和 Physical AI 的全栈安全体系,Agility 是首个合作方人形机器人进入工厂和仓库前,安全栈会先成为平台层NVIDIA Newsroom
公司/资本Agility Robotics 宣布与 Churchill Capital Corp XI 合并上市,披露 25 亿美元 pre-money 估值和超过 6.2 亿美元预计交易总收益有真实部署和订单的 humanoid 公司开始接入公开资本市场Agility Robotics
公司/市场AGIBOT 在泰国举办 APC 2026,与 VST ECS 推进当地伙伴生态和 RaaS 租赁模式中国具身智能厂商在把产品和渠道一起往海外铺PRNewswire
公司/产品SEER Robotics 完成港股上市,并在 AUTOMATE 2026、CeMAT Australia 2026 展示 AMR、智能叉车、人形机器人和 Robot Brain 平台工业物流场景仍是具身智能最快产生商业闭环的入口Newsfile

论文和研究:重点在「跨机器人复用」和「执行时校验」

E-TTS:把测试时缩放搬进机器人操控

E-TTS 提出一个 Embodied Test-Time Scaling 框架,把推理候选和动作候选放在一起采样、评分,再用历史缓冲区和视觉语言验证器做闭环迭代。论文称,实验覆盖 4 个 benchmark、6 个环境、3 种 embodiment 和 4 个基础 VLA 模型;在不额外收集专家数据、不重新训练的条件下,仿真性能最高提升 33.14%,真实场景最高提升 26.62%。1
这件事的价值在于:机器人策略不是一次前向推理就结束。长时任务会遇到遮挡、误抓、物体状态变化,历史信息和在线反馈能否进入动作选择,会直接影响真实环境里的成功率。

SPACE:跨机器人数据不能只靠「更多示范」

SPACE 的切入点很直接:不同机器人为了达成同样末端运动,底层动作命令可能完全不同。论文用笛卡尔状态增量作为通用动作表示,再通过 Action Adapter 转成具体机器人控制命令;框架同时处理不同 embodiment、同一 embodiment 的不同硬件个体,以及部署中的控制频率、物体重量、控制增益变化。2
如果这个方向走通,机器人数据集就不必被「谁采的、用哪台机器人采的」牢牢绑住。对希望训练通用策略的团队来说,这比单纯增加示范数量更关键。

Humanoid-OmniOcc:人形机器人需要自己的三维占用数据

Humanoid-OmniOcc 面向人形机器人全视角占用预测,数据包含 15 个仿真室内场景、5 个真实环境和超过 15.5 万个样本。论文强调它采用 Real2Sim2Real 闭环:真实传感器规格驱动仿真,仿真生成大规模标注数据,再把模型拿到真实采集上评估。3
这类数据集解决的是一个容易被忽略的问题:自动驾驶数据多,但车的视角、运动方式和场景先验,不等于人形机器人在室内和人类环境里看到的世界。

PAIWorld 与 ArtiTwinSplat:世界模型开始补几何账

PAIWorld 针对机器人操控里的多摄像头世界模型,加入 Geometry-Aware Cross-View Attention、Geometric RoPE 和 Latent 3D-REPA。论文称,它在 WorldArena 排名第 1、AgiBot-Challenge2026 排名第 2,并可用于 model-based planning、world action models 和多视角策略后训练。4
ArtiTwinSplat 则更偏系统集成:它用 RGB-D 视频自动构建铰接物体的可交互数字孪生,不需要 CAD 模型、仿真资产或人工标注,并恢复部件结构和关节运动学。5
两篇论文指向同一个问题:机器人不是看一张图做判断,而是在多视角、多时间步里和物体互动。视觉模型如果没有几何一致性,后面的规划和控制会吃亏。

产品与公司:能进现场,比能演示更重要

NVIDIA Halos:安全栈开始平台化

NVIDIA 在 6 月 22 日发布 Halos for Robotics,定位为面向机器人和 Physical AI 的全栈安全系统。它覆盖 IGX Thor、Holoscan Sensor Bridge、Halos OS、Outside-In Safety Blueprint 和 AI Systems Inspection Lab;NVIDIA 称该检查实验室已获得 ANAB 认可,可帮助合作方准备第三方安全认证。6
这不是一个单点功能更新。仓库、工厂和物流现场的问题通常不是「机器人能不能识别箱子」,而是它能不能和人、叉车、传送线、外部摄像头、安全控制器一起工作。安全体系如果被做成通用栈,会影响后续硬件厂商的进入门槛。

Agility:上市交易把订单、部署小时和产能摊到台面上

Agility Robotics 宣布与 Churchill Capital Corp XI 达成业务合并协议,交易预计让 Agility 成为公开上市公司,并以 AGLT 为股票代码。公司披露的关键数字包括:25 亿美元 pre-money equity value、超过 6.2 亿美元预计 gross proceeds、Digit v5 已获得超过 3 亿美元多年期订单、Digit 累计超过 6.5 万小时真实运营,并在 9 个客户设施中有部署承诺。7
这类披露比发布会视频更有用。它把 humanoid 公司最难核对的几个问题摆出来:有没有真实客户、订单是不是多年期、部署是不是在生产环境里跑、产能计划能不能支撑交付。

AGIBOT、SEER 与 Striding AI:从模型叙事转向渠道和场景

AGIBOT 在曼谷举办 APC 2026 Thailand,并与 VST ECS Thailand 推进本地伙伴生态。公告称,AGIBOT 和 VST ECS 会推出面向场景的产品组合,AgiRaas 机器人即服务模式也会通过灵活租赁方式在泰国提供。8
SEER Robotics 则披露已于 6 月 24 日完成港股上市,并在 AUTOMATE 2026 和 CeMAT Australia 2026 展示 Robot Brain-enabled 自动化平台、机器人控制器、AMR、智能叉车、人形机器人和制造/物流方案。9
Striding AI 刚宣布要开发面向 Physical AI 部署的新一代机器人基础系统,起步场景选在零售。公司称早期内部测试里,人类反馈强化学习方法把任务成功率最高提升到 3 倍,并计划建设机器人预训练、分布式强化学习和边云协同基础设施。10
这三条放在一起看,产业端的关键词不是「通用」两个字,而是更具体的四件事:渠道、租赁、物流和可重复流程。真正愿意付钱的客户,往往先要一个能在仓库、门店或产线上重复跑的系统。

今天的判断

  1. 安全会先于大规模人形部署成为标准件。 NVIDIA Halos 和 Agility 的合作说明,机器人进真实工作区需要一套能被验证、审计和认证的安全体系,而不是厂商各自写一套演示级规则。
  2. 跨 embodiment 学习正在变成研究主线。 SPACE 处理动作表示,Humanoid-OmniOcc 处理感知数据,E-TTS 处理执行时推理;它们都在回答同一个问题:机器人模型怎样摆脱单一硬件、单一数据集和单一场景。
  3. 商业化会先发生在结构化场景。 Agility 押制造、物流和仓储,SEER 聚焦工业物流,Striding AI 从零售起步,AGIBOT 通过区域伙伴做落地。这些场景不酷,但流程稳定、ROI 更容易算。
  4. 「世界模型」要拿几何一致性说话。 PAIWorld 和 ArtiTwinSplat 都在补真实物理交互需要的三维结构。只会生成顺眼画面的模型,对机器人来说还不够。

明天中午前优先跟踪

  • Agility 后续 S-4 文件和投资者材料:能进一步看订单条款、收入确认、客户集中度和产能节奏。
  • NVIDIA Halos 的 GitHub early access 与认证伙伴进展:如果更多厂商接入,安全栈会影响机器人部署架构。
  • E-TTS、SPACE、PAIWorld 的代码和项目页更新:这三条都直接关系到 VLA 模型能否更低成本地进入真实机器人。
  • AGIBOT、SEER、Striding AI 是否披露可复核的客户案例:区域渠道和租赁模式最终要靠实际部署量验证。

関連コンテンツ

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。