
1/7/2026 · 17:53
Qwen-Robot Suite:大模型开始接管机器人的动作接口
Qwen-Robot Suite 把机器人能力拆成导航、操作和世界模型三层接口:Nav 管移动,Manip 管机械臂动作,World 预测物理后果。文章解读它的技术路线、关键指标、Agent 组合方式,以及官方 demo 距离真实长期部署还差什么。
Qwen 在官方博客里把 Qwen-Robot Suite 定义为由 Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld 组成的机器人基础模型套件,页面可见日期为 2026/06/16。它的重点不是再做一个「能看图聊天」的多模态模型,而是把视觉语言模型接到物理行动上:先移动到目标附近,再完成操作,还要能预测动作之后世界会变成什么样。1
这篇发布的判断可以更直接一点:Qwen 把机器人问题拆成了三个接口问题。导航模型管「怎么到那里」,操作模型管「手该怎么动」,世界模型管「如果这么做会发生什么」。如果这三件事都能用自然语言和上层 Agent 对接,通用大模型才有机会从「规划步骤」往「调用物理工具」走。

它解决的不是「看懂世界」,而是「动作空间对不上」
机器人领域真正麻烦的地方在于,语言指令、图像理解和电机控制不在同一个表示空间里。一个 VLM 可以理解「去厨房找红色杯子,把它放到架子上」,但这句话还不能直接变成轮式机器人、四足机器人或机械臂能执行的控制量。Qwen 官方博客把这个差异称为从感知理解到物理控制之间的缺口。1
这也解释了为什么 Qwen-Robot Suite 不是单模型发布。导航轨迹、机械臂遥操作数据、行车视频、人体第一视角操作视频,观察格式、动作空间和机器人形态都不同。直接把这些数据混在一起训练,可能不是规模化,而是互相干扰。Qwen 的做法是先为不同物理任务找到可对齐的接口,再把这些接口交给上层 Agent 组合调用。1
| 组件 | 主要任务 | 关键接口 | 官方给出的规模信号 |
|---|---|---|---|
| Qwen-RobotNav | 语言导航、目标搜索、目标跟踪、自动驾驶、具身问答 | 可控观察协议:视觉 token 预算、时间衰减、相机权重、帧采样方式 | 15.6M 训练样本,统一 5 类导航任务;VLN-CE RxR 成功率 76.5%,NAVSIM PDMS 91.4。2 |
| Qwen-RobotManip | 机械臂与多形态机器人操作 | 统一 80 维状态-动作表示、相机坐标系下的末端执行器增量动作、上下文策略适配 | 使用约 38,100 小时训练语料;其中有人类第一视角视频转机器人演示的数据。3 |
| Qwen-RobotWorld | 预测动作后的物理世界变化 | 把动作统一写成自然语言,由 Qwen2.5-VL 作为动作编码器接入双流 MMDiT 世界模型 | 20+ 机器人形态、500+ 动作类别、8.6M 视频-文本对、200M+ 帧。4 |
Nav:把「记住什么」变成可调参数
Qwen-RobotNav 的有意思之处,不只是它能做多种导航任务,而是它把上下文管理暴露成接口。指令导航需要记住很长的视觉历史,因为模型可能要回忆远处地标;目标跟踪更依赖最近几帧;物体搜索则可能先用长历史探索,接近目标时再切到短记忆。固定一种观察策略,很难同时适合这些任务。2
官方博客说,Qwen-RobotNav 基于 Qwen3-VL,外接一个轻量 4 层 MLP action head,输出 8 个 waypoint,每个 waypoint 包含位置和朝向。相机身份和时间顺序通过自然语言标签与视觉 token 交织输入,例如按时间步列出 Front View、Front Right View 等视角。2
这对 Agent 系统很关键。上层规划器不需要重新训练导航模型,只要在一次次调用中改变任务模式和观察参数。Qwen 官方示例里,上层 Qwen3.7-Plus 负责拆解长程目标,Qwen-RobotNav 负责每段反应式 waypoint 预测;系统还保留两层记忆,一层记录轨迹摘要,一层记录已搜索区域、候选位置和被否定的假设。2
这比「大模型直接开车」更像工程上可落地的路线:把导航做成一个可配置工具,上层 Agent 只决定什么时候调用、用什么记忆窗口、去哪里验证。问题也在这里,真实环境里的定位误差、动态障碍、安全约束和失败恢复,不会因为接口漂亮就消失。官方展示了 Unitree Go2 四足机器人零样本部署,使用内置低分辨率相机,并在 NVIDIA Jetson Thor 上达到 196ms 延迟;这说明模型可以跑进真实机器人,但还不能等同于大规模稳定商业部署。2
Manip:规模化之前,先把不同机器人对齐
Qwen-RobotManip 处理的是机械臂和多形态操作。它提出的核心判断很朴素:如果不同机器人的动作表示不对齐,更多数据不一定带来更强模型。一个工业臂、一个双臂平台、一个带灵巧手的移动机器人,可能都在做「抓起物体」这个视觉上相似的动作,但关节配置、坐标系、末端执行器都不同。3
它的解决方案有三层。第一,把单臂、双臂、灵巧手、移动底盘等状态和动作映射到统一的 80 维向量,用二值 mask 控制哪些维度参与梯度。第二,用相机坐标系下的末端执行器 delta pose 表示动作,让视觉上相似的动作在数值空间里更接近。第三,把机器人平台、速度、FPS 和历史观察-动作片段放进上下文,让模型在推理时读出当前 embodiment 的行为模式。3
数据侧,Qwen-RobotManip 没有把「开源数据少」当成静态限制。官方博客列出约 11,420 小时机器人数据、约 1,933 小时人类第一视角操作视频,以及约 24,808 小时由人类视频合成的机器人演示,总计超过 38,100 小时。Human-to-Robot 合成流程包括动作重定向、手部移除与修补、仿真渲染、深度引导的机器人合成。3
最值得看的是它对 OOD 的强调。官方博客说,普通 IID benchmark 可能区分不出「从零训练」和「大规模预训练」的差别,真正的差距要放到新场景、新指令、跨 embodiment 转移里看。它报告了 LIBERO-Plus 91.4%、RoboTwin-Clean2Rand Hard 69.4%、RoboCasa365 Composite-Unseen 14.9%、RoboTwin-IF 平均约 72% 等结果。3
这里的读者判断点是:RobotManip 把机器人基础模型的瓶颈从「有没有更多数据」改写成「数据能不能在一个共同坐标系里相互增强」。如果 alignment 做错,规模化会变成噪声放大;如果 alignment 做对,人类视频和不同机器人平台才可能互相补课。
World:用自然语言统一动作,再预测未来帧
Qwen-RobotWorld 更像是套件里的「想象器」。它不直接输出控制动作,而是给定当前观察和自然语言动作,预测下一段物理世界会如何变化。官方博客说,它把 end-effector pose、转向命令、导航 waypoint 等动作都投影到自然语言空间,让操作、驾驶、导航、人到机器人转移可以在同一个视频生成任务下联合训练。4
架构上,RobotWorld 使用双流 Multimodal Diffusion Transformer。理解流处理冻结 Qwen2.5-VL 编码出的语义动作特征,生成流处理视频 VAE 的视觉 latent,两条流在去噪过程中通过 joint attention 交互。官方特别强调,它使用完整 MLLM 做动作编码器,而不是 T5 或 CLIP 这类轻量文本编码器,因为复杂组合指令和物理常识会影响未来帧是否合理。4
它的训练语料被命名为 Embodied World Knowledge,覆盖人手、7 种机械臂配置、自车、移动 agent 等 20+ 机器人模型;多任务部分包括原子操作、长程组合、移动、动态和可形变交互;其中约 1.6M 个 embodied 样本包含 2 到 4 个视角拼接。4
这条路线的价值不是「视频生成更好看」,而是给机器人训练补一个低成本试验场。一个世界模型如果能可靠预测接触、遮挡、滑落、碰撞和多视角一致性,就可以作为合成数据引擎、闭环策略评估器或动作规划器。官方给出的 EWMBench、DreamGen、WorldModelBench、PBench 结果说明它在几个评测上领先或达到开放模型前列,但这些仍是 benchmark 与 demo。真实机器人最怕的是长尾失败:杯子边缘、软物体形变、桌面反光、手眼标定偏差,都会把「看起来合理的未来」变成错误动作的来源。4
真正的新意:让通用 Agent 调用物理工具
Qwen-Robot Suite 的主线不是单个模型的跑分,而是把 Nav、Manip、World 都做成 language-first 的低层工具。官方博客提到内部项目 Qwen-RobotClaw,目标是让 Qwen VLM Agent 调用机器人套件模型,同时管理长程任务所需的上下文和记忆。1
这个设定能解释几个 demo:Qwen-Omni 观察场景、用语音随机提出操作任务并实时判断执行;Qwen-3.5 充当高层规划器,把抽象桌面清理任务拆成原子子任务,再交给 RobotManip 执行;在具身问答里,Agent 调用 RobotNav 到真实建筑中寻找可用洗手间,并根据「暂停使用」标识重新规划路线。1
如果只看宣传话术,这些 demo 很容易被理解成「机器人已经能听懂人话做事」。更稳妥的看法是:Qwen 正在把机器人能力拆成可调用模块,让上层大模型负责目标分解、记忆管理和失败重试,低层模型负责受限动作空间里的执行。这个分工比端到端一句话控制机器人更保守,但也更像真实系统会采用的结构。
还不能忽略的边界
第一,官方结果主要来自论文、benchmark 和 demo,还不是开放世界里的长期稳定性证明。导航、操作、世界预测分别展示了能力,但真正的机器人系统要同时处理定位、动作安全、碰撞约束、执行延迟、传感器漂移和人类干预。
第二,Chat2Robot 仍是实验功能。官方说明它当前只支持 Qwen-RobotManip,部署策略仅基于 RoboTwin-Clean 数据集训练,只有 50 个任务,目标是展示一定程度的零样本指令跟随能力,而不是提供完善策略。1
第三,World 模型的语言接口很漂亮,但语言也可能隐藏控制细节。同一句「把杯子放到架子上」,对不同夹爪、不同负载、不同摩擦条件意味着不同控制策略。自然语言适合统一高层动作描述,未必足以替代低层控制约束。
第四,Human-to-Robot 合成数据会扩大覆盖面,也会引入合成偏差。Qwen-RobotManip 的多阶段清洗和 cross-modal 检查可以降低噪声,但合成演示与真实接触动力学之间仍有距离。后续真正需要看的,是这些模型在未见过的真实工位、家庭杂乱场景和安全约束下能否持续复现。
读者该怎么判断它的价值
短期看,Qwen-Robot Suite 更适合作为研究路线图,而不是即插即用的通用机器人产品。它把三个关键问题摆清楚了:导航要可控地管理视觉历史,操作要先对齐 embodiment,世界模型要能预测动作后果。
中期看,值得跟踪三件事:Nav 和 Manip 的 GitHub / Paper 后续是否放出可复现实验;RobotWorld 是否能成为可用的机器人合成数据和策略评估工具;Qwen-RobotClaw 这类 Agent harness 是否能公开更多长程任务细节。官方博客已经给出 Nav 与 Manip 的 GitHub 入口,World 页面则提供论文入口。234
这次发布最值得带走的不是某个单点 SOTA,而是一个系统设计判断:大模型进入物理世界,不能只靠更强的视觉理解。它需要一组能被 Agent 调用、能在不同机器人之间对齐、能在执行前后检验物理后果的低层模型。Qwen-Robot Suite 给出的正是这套接口雏形。

Añade más opiniones o contexto en torno a este contenido.