Qwen-AgentWorld:让 Agent 先学会预测世界
2026/7/1 · 17:41

Qwen-AgentWorld:让 Agent 先学会预测世界

Qwen-AgentWorld 把 Agent 训练中的环境反馈建模成语言世界模型:覆盖七类交互环境,用 CPT/SFT/RL 学会预测下一步观察,并通过受控仿真与 LWM 预热推动 Agent 训练。文章拆解它的训练管线、评测结果、开源边界和真正值得验证的限制。

Agent 训练里最麻烦的部分,往往不是「模型会不会想」,而是「它做完一步以后,环境到底会怎样回应」。终端会吐出什么错误,API 会返回哪种分页,浏览器 DOM 会如何变化,真实系统里这些反馈又慢又贵,有些还不可逆。Qwen-AgentWorld 把这个问题反过来做:先训练一个语言世界模型,让它根据当前交互历史和 Agent 动作预测下一步环境观察。官方博客把它定义为覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七类环境的原生语言世界模型;arXiv 摘要也强调,它的目标是研究世界建模如何推进通用 Agent。12
这篇工作的价值不在于又多了一个会调用工具的 Agent。更准确地说,它在补 Agent 训练中的「环境缺口」:当真实环境不够便宜、不够可控、不够安全时,能不能用一个模型先模拟世界的反应,再拿这些模拟交互去训练或预热 Agent。

先看结论:它想做 Agent 的训练场

Qwen-AgentWorld 有两个层面的主张。
第一层是环境仿真。模型不是在通用 LLM 上临时加一个「扮演终端」提示词,而是从持续预训练阶段开始就把环境建模当训练目标。官方给出的训练路径是 CPT → SFT → RL:CPT 注入环境知识,SFT 激活下一状态预测的推理模式,RL 再用混合奖励提高仿真质量。训练数据规模超过 1000 万条真实环境交互轨迹。12
第二层是 Agent 能力迁移。团队把世界模型放进两种范式里测试:一种是把它当独立环境模拟器,用于 Sim RL;另一种是把下一状态预测当作模型自身的预热训练,让同一个模型在做 Agent 时先学会「行动前预测环境反应」。官方结果显示,受控仿真比无控制仿真更有效,单轮非工具调用的 LWM RL 预热也能迁移到多轮工具调用任务。1

七个环境被压成一种语言问题

这项工作最有意思的设计,是把 GUI 环境也尽量转成语言状态。Terminal、Search、MCP、SWE 本来就有文本反馈;Web、Android、OS 这三类 GUI 环境,则用 HTML、accessibility tree XML、UI hierarchy markup 这类可渲染代码表示,而不是直接预测像素帧。1
这会带来一个现实好处:模型需要学习的不是「图片下一帧长什么样」,而是「环境状态如何变化」。比如一次网页点击后,HTML 和可访问性树怎么更新;一次 MCP 工具调用后,服务端返回结构是否和前几轮保持一致;一次 shell 管道失败后,错误是从哪一步传导出来的。官方举的例子里,模型要解释 curl -s localhost:3000 | python3 -m json.tool 为什么失败,需要串起 Node.js 未安装、服务未启动、端口无监听、curl 空输出、json.tool 报错这一整条因果链。1
这也是它和普通「工具调用模型」的区别。工具调用模型通常学习「下一步该调哪个工具」,世界模型学习「如果我这么做,环境会回什么」。前者偏决策,后者偏后果预测。对复杂 Agent 来说,后者更像行动前的心算。

训练配方:不是只喂轨迹,还要控制哪些轨迹有信息量

官方把训练拆成三段。
  • CPT 阶段使用非思考轨迹注入环境知识,数据来自容器沙箱、MCP server、Android / Web / OS 模拟器、开放环境轨迹和内部 Agent 轨迹;同时加入工业控制、网络安全、法律、医疗、金融、时事等领域知识语料。博客还提到 turn-level information-theoretic loss masking:用四个表层统计量识别每个动作-观察对中真正携带环境信息的轮次,只让这些轮次进 loss,其余仍作为上下文保留。1
  • SFT 阶段用带有思考块的下一状态预测样本激活推理模式,官方披露通过 rejection sampling 选出了 7,094 条高质量训练样本。1
  • RL 阶段使用 GSPO,并结合两类奖励:一类是 LLM judge 对格式、事实性、一致性、真实感、质量等维度打分,另一类是在可程序校验的领域用规则 verifier。1
这里的关键点是,团队没有把所有交互日志一股脑塞进去。环境交互里有大量低信息量轮次,例如重复确认、格式壳、无状态变化的返回。如果这些轮次权重太高,模型会学会「像环境」但不一定学会「环境为什么这样变化」。loss masking 试图把训练信号集中到状态转移更明显的地方。

成绩怎么读:强项在可校验状态,不是泛泛聊天

官方提出 AgentWorldBench,用真实环境执行得到的 observation 做参照,覆盖 5 个前沿模型在 9 个既有 benchmark 上的轨迹,并按 format、factuality、consistency、realism、quality 五个维度评分。1
在主结果里,Qwen-AgentWorld-397B-A17B 的总体分数是 58.71,高于 GPT-5.4 的 58.25;35B-A3B 版本的总体分数是 56.39,相比 Qwen3.5-35B-A3B 的 47.73 提高 8.66 分。官方称优势最明显的领域是 Terminal 和 SWE,因为这两类任务更依赖代码执行状态、文件变化和工具 API 行为的精确建模。13
这组分数要谨慎读。它说明 Qwen-AgentWorld 在「预测环境观察」这个专门任务上比一批前沿模型更贴近真实环境,并不等于它作为最终 Agent 一定更会完成所有任务。评测本身也依赖 LLM judge,虽然有真实 observation 参照,但仍然不是生产环境成功率。

两种用法:外置模拟器,或内化成 Agent 的预演能力

第一种用法是把世界模型当外置训练场。Agent 做动作,Qwen-AgentWorld 返回下一步环境观察,Agent 再从模拟 rollout 中学习。官方在 4,000 个训练中未出现过的 OpenClaw 环境上做 Sim RL,使用 Qwen-AgentWorld-397B-A17B 作模拟器后,Claw-Eval 提升 +4.3,QwenClawBench 提升 +7.1;用 Qwen3.6-Plus 充当模拟器时,改进几乎没有出现。1
更值得看的是「可控」。在 MCP 场景中,控制指令可以注入间歇性 API 错误、分页返回、不完整中间结果、批量操作局部失败等扰动。官方结果显示,无控制 Sim RL 在 Tool Decathlon 上反而从 32.4 降到 31.5;加入受控仿真后,Tool Decathlon 提高 +3.7,MCPMark 提高 +12.3。1
Search 场景里,团队还构造了 1,000 个自洽的虚构世界,每个世界由 300–500 行关系数据库支撑。这样做的好处是,答案只存在于模拟环境里,Agent 不能靠参数记忆绕过搜索;又因为事实是虚构的,模型不会把模拟事实和真实世界混在一起。官方披露,Qwen3.5-35B-A3B-SFT 经过受控 Sim RL 后,WideSearch 的 F1 by Item 从 34.02 到 50.31,F1 by Row 从 13.72 到 24.21。1
第二种用法更像能力预热。团队在 Qwen3.5-35B-A3B-SFT 上做单轮、非 Agent、无工具调用的 LWM RL,然后直接评估多轮工具调用任务。结果显示,Terminal-Bench 2.0 提高 +6.3,SWE-Bench Verified 提高 +3.4,SWE-Bench Pro 提高 +5.2,WideSearch F1 Item 提高 +12.8;在训练未覆盖的 Claw-Eval、QwenClawBench、BFCL v4 上,也分别提高 +11.3、+9.7、+9.0。1
如果这些结果能被更多外部环境复现,它指向一个很实用的训练方向:Agent 不只学「下一步做什么」,还要学「做完之后会发生什么」。这比单纯强化工具调用格式更接近真实工作流。

已开放什么,没开放什么

GitHub README 显示,Qwen 团队开放了 Qwen-AgentWorld-35B-A3B 和 AgentWorldBench;35B-A3B 是 MoE 架构,35B 总参数、3B 激活参数,支持 256K 上下文。README 还给出 SGLang、vLLM 和 Transformers 的部署方式,并说明 vLLM 需要 --language-model-only,因为模型架构包含视觉组件定义,但 checkpoint 只含语言模型权重。3
这意味着开发者现在能直接试的是 35B-A3B 版本和 benchmark,不是主结果里分数最高的 397B-A17B。文章里讨论的很多结论,尤其是仿真质量作为 Sim RL 瓶颈、受控扰动带来的收益,需要区分「论文验证过的大模型设定」和「开源权重能否在自己任务上复现」。

这项工作最该被追问的边界

第一,GUI 世界被转成了 markup,而不是像素。这样做让训练更统一,也更适合长上下文建模,但它避开了一部分视觉真实世界问题:图片内容、动态动画、渲染延迟、鼠标轨迹、跨应用权限弹窗,这些都可能影响真实桌面或移动端 Agent。官方博客明确说 GUI observation 采用 renderable code 表示,这一点不能被读成「完整视觉世界仿真」。1
第二,Sim RL 的效果依赖初始状态。官方在关键发现里写到,仿真有效性取决于给世界模型足够详细的初始状态;状态不充分时,仿真保真度和下游收益都会下降。对真实业务系统来说,状态描述往往正是最难结构化的一部分。1
第三,受控仿真能塑造行为,但也可能塑造偏见。WideSearch 实验里,Sim-RL-trained agents 的 web_extractor 调用从 2.5 增加到 4.0,而 Real-RL-trained agents 从 2.5 降到 1.5;官方解释是,模拟 snippets 刻意隐藏细节,使 Agent 学会多打开全文。1 这在需要充分取证的搜索任务里是好事,但换到收费 API、慢网页或风控环境,更多提取调用未必总是更优。

我的判断:它把 Agent 训练的重点往前挪了一步

Qwen-AgentWorld 的信号是:通用 Agent 的瓶颈不只在 policy,也在 environment。过去很多训练把环境当成外部黑箱,Agent 只根据回传结果调参;这篇工作尝试把环境动态本身变成可学习对象,再用它去放大训练规模、制造边缘情形、预热模型的后果预测能力。
短期看,它最适合三类人跟进。做 Agent 基础设施的人,可以把它当作故障注入和离线训练的候选方案。做模型训练的人,可以评估「下一状态预测」是否能作为工具调用训练前的预热任务。只使用现成 Agent 产品的人,不必急着把它当成能力跃迁;更应该等开源 35B-A3B 在真实仓库、真实网页、真实 API 上的复现实验。
这篇工作的落点很具体:如果一个 Agent 在行动前不会估计环境后果,它就很难在长任务里稳定。Qwen-AgentWorld 给出的答案,是先训练一个能预测环境的模型,再让 Agent 在这个可控世界里学会犯错、修正和选择下一步。

相似内容

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。