Qwen-AgentWorld：让 Agent 先学会预测世界 (2026)

Agent 训练里最麻烦的部分，往往不是「模型会不会想」，而是「它做完一步以后，环境到底会怎样回应」。终端会吐出什么错误，API 会返回哪种分页，浏览器 DOM 会如何变化，真实系统里这些反馈又慢又贵，有些还不可逆。Qwen-AgentWorld 把这个问题反过来做：先训练一个语言世界模型，让它根据当前交互历史和 Agent 动作预测下一步环境观察。官方博客把它定义为覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七类环境的原生语言世界模型；arXiv 摘要也强调，它的目标是研究世界建模如何推进通用 Agent。1 2

这篇工作的价值不在于又多了一个会调用工具的 Agent。更准确地说，它在补 Agent 训练中的「环境缺口」：当真实环境不够便宜、不够可控、不够安全时，能不能用一个模型先模拟世界的反应，再拿这些模拟交互去训练或预热 Agent。

先看结论：它想做 Agent 的训练场

Qwen-AgentWorld 有两个层面的主张。

第一层是环境仿真。模型不是在通用 LLM 上临时加一个「扮演终端」提示词，而是从持续预训练阶段开始就把环境建模当训练目标。官方给出的训练路径是 CPT → SFT → RL：CPT 注入环境知识，SFT 激活下一状态预测的推理模式，RL 再用混合奖励提高仿真质量。训练数据规模超过 1000 万条真实环境交互轨迹。1 2

第二层是 Agent 能力迁移。团队把世界模型放进两种范式里测试：一种是把它当独立环境模拟器，用于 Sim RL；另一种是把下一状态预测当作模型自身的预热训练，让同一个模型在做 Agent 时先学会「行动前预测环境反应」。官方结果显示，受控仿真比无控制仿真更有效，单轮非工具调用的 LWM RL 预热也能迁移到多轮工具调用任务。1

七个环境被压成一种语言问题

这项工作最有意思的设计，是把 GUI 环境也尽量转成语言状态。Terminal、Search、MCP、SWE 本来就有文本反馈；Web、Android、OS 这三类 GUI 环境，则用 HTML、accessibility tree XML、UI hierarchy markup 这类可渲染代码表示，而不是直接预测像素帧。1

这会带来一个现实好处：模型需要学习的不是「图片下一帧长什么样」，而是「环境状态如何变化」。比如一次网页点击后，HTML 和可访问性树怎么更新；一次 MCP 工具调用后，服务端返回结构是否和前几轮保持一致；一次 shell 管道失败后，错误是从哪一步传导出来的。官方举的例子里，模型要解释 curl -s localhost:3000 | python3 -m json.tool 为什么失败，需要串起 Node.js 未安装、服务未启动、端口无监听、curl 空输出、json.tool 报错这一整条因果链。1

这也是它和普通「工具调用模型」的区别。工具调用模型通常学习「下一步该调哪个工具」，世界模型学习「如果我这么做，环境会回什么」。前者偏决策，后者偏后果预测。对复杂 Agent 来说，后者更像行动前的心算。

训练配方：不是只喂轨迹，还要控制哪些轨迹有信息量

官方把训练拆成三段。

CPT 阶段使用非思考轨迹注入环境知识，数据来自容器沙箱、MCP server、Android / Web / OS 模拟器、开放环境轨迹和内部 Agent 轨迹；同时加入工业控制、网络安全、法律、医疗、金融、时事等领域知识语料。博客还提到 turn-level information-theoretic loss masking：用四个表层统计量识别每个动作-观察对中真正携带环境信息的轮次，只让这些轮次进 loss，其余仍作为上下文保留。1
SFT 阶段用带有思考块的下一状态预测样本激活推理模式，官方披露通过 rejection sampling 选出了 7,094 条高质量训练样本。1
RL 阶段使用 GSPO，并结合两类奖励：一类是 LLM judge 对格式、事实性、一致性、真实感、质量等维度打分，另一类是在可程序校验的领域用规则 verifier。1

这里的关键点是，团队没有把所有交互日志一股脑塞进去。环境交互里有大量低信息量轮次，例如重复确认、格式壳、无状态变化的返回。如果这些轮次权重太高，模型会学会「像环境」但不一定学会「环境为什么这样变化」。loss masking 试图把训练信号集中到状态转移更明显的地方。

成绩怎么读：强项在可校验状态，不是泛泛聊天

官方提出 AgentWorldBench，用真实环境执行得到的 observation 做参照，覆盖 5 个前沿模型在 9 个既有 benchmark 上的轨迹，并按 format、factuality、consistency、realism、quality 五个维度评分。1

在主结果里，Qwen-AgentWorld-397B-A17B 的总体分数是 58.71，高于 GPT-5.4 的 58.25；35B-A3B 版本的总体分数是 56.39，相比 Qwen3.5-35B-A3B 的 47.73 提高 8.66 分。官方称优势最明显的领域是 Terminal 和 SWE，因为这两类任务更依赖代码执行状态、文件变化和工具 API 行为的精确建模。1 3

这组分数要谨慎读。它说明 Qwen-AgentWorld 在「预测环境观察」这个专门任务上比一批前沿模型更贴近真实环境，并不等于它作为最终 Agent 一定更会完成所有任务。评测本身也依赖 LLM judge，虽然有真实 observation 参照，但仍然不是生产环境成功率。

两种用法：外置模拟器，或内化成 Agent 的预演能力

第一种用法是把世界模型当外置训练场。Agent 做动作，Qwen-AgentWorld 返回下一步环境观察，Agent 再从模拟 rollout 中学习。官方在 4,000 个训练中未出现过的 OpenClaw 环境上做 Sim RL，使用 Qwen-AgentWorld-397B-A17B 作模拟器后，Claw-Eval 提升 +4.3，QwenClawBench 提升 +7.1；用 Qwen3.6-Plus 充当模拟器时，改进几乎没有出现。1

更值得看的是「可控」。在 MCP 场景中，控制指令可以注入间歇性 API 错误、分页返回、不完整中间结果、批量操作局部失败等扰动。官方结果显示，无控制 Sim RL 在 Tool Decathlon 上反而从 32.4 降到 31.5；加入受控仿真后，Tool Decathlon 提高 +3.7，MCPMark 提高 +12.3。1

Search 场景里，团队还构造了 1,000 个自洽的虚构世界，每个世界由 300–500 行关系数据库支撑。这样做的好处是，答案只存在于模拟环境里，Agent 不能靠参数记忆绕过搜索；又因为事实是虚构的，模型不会把模拟事实和真实世界混在一起。官方披露，Qwen3.5-35B-A3B-SFT 经过受控 Sim RL 后，WideSearch 的 F1 by Item 从 34.02 到 50.31，F1 by Row 从 13.72 到 24.21。1

第二种用法更像能力预热。团队在 Qwen3.5-35B-A3B-SFT 上做单轮、非 Agent、无工具调用的 LWM RL，然后直接评估多轮工具调用任务。结果显示，Terminal-Bench 2.0 提高 +6.3，SWE-Bench Verified 提高 +3.4，SWE-Bench Pro 提高 +5.2，WideSearch F1 Item 提高 +12.8；在训练未覆盖的 Claw-Eval、QwenClawBench、BFCL v4 上，也分别提高 +11.3、+9.7、+9.0。1

如果这些结果能被更多外部环境复现，它指向一个很实用的训练方向：Agent 不只学「下一步做什么」，还要学「做完之后会发生什么」。这比单纯强化工具调用格式更接近真实工作流。

已开放什么，没开放什么

GitHub README 显示，Qwen 团队开放了 Qwen-AgentWorld-35B-A3B 和 AgentWorldBench；35B-A3B 是 MoE 架构，35B 总参数、3B 激活参数，支持 256K 上下文。README 还给出 SGLang、vLLM 和 Transformers 的部署方式，并说明 vLLM 需要 --language-model-only，因为模型架构包含视觉组件定义，但 checkpoint 只含语言模型权重。3

这意味着开发者现在能直接试的是 35B-A3B 版本和 benchmark，不是主结果里分数最高的 397B-A17B。文章里讨论的很多结论，尤其是仿真质量作为 Sim RL 瓶颈、受控扰动带来的收益，需要区分「论文验证过的大模型设定」和「开源权重能否在自己任务上复现」。

这项工作最该被追问的边界

第一，GUI 世界被转成了 markup，而不是像素。这样做让训练更统一，也更适合长上下文建模，但它避开了一部分视觉真实世界问题：图片内容、动态动画、渲染延迟、鼠标轨迹、跨应用权限弹窗，这些都可能影响真实桌面或移动端 Agent。官方博客明确说 GUI observation 采用 renderable code 表示，这一点不能被读成「完整视觉世界仿真」。1

第二，Sim RL 的效果依赖初始状态。官方在关键发现里写到，仿真有效性取决于给世界模型足够详细的初始状态；状态不充分时，仿真保真度和下游收益都会下降。对真实业务系统来说，状态描述往往正是最难结构化的一部分。1

第三，受控仿真能塑造行为，但也可能塑造偏见。WideSearch 实验里，Sim-RL-trained agents 的 web_extractor 调用从 2.5 增加到 4.0，而 Real-RL-trained agents 从 2.5 降到 1.5；官方解释是，模拟 snippets 刻意隐藏细节，使 Agent 学会多打开全文。1 这在需要充分取证的搜索任务里是好事，但换到收费 API、慢网页或风控环境，更多提取调用未必总是更优。

我的判断：它把 Agent 训练的重点往前挪了一步

Qwen-AgentWorld 的信号是：通用 Agent 的瓶颈不只在 policy，也在 environment。过去很多训练把环境当成外部黑箱，Agent 只根据回传结果调参；这篇工作尝试把环境动态本身变成可学习对象，再用它去放大训练规模、制造边缘情形、预热模型的后果预测能力。

短期看，它最适合三类人跟进。做 Agent 基础设施的人，可以把它当作故障注入和离线训练的候选方案。做模型训练的人，可以评估「下一状态预测」是否能作为工具调用训练前的预热任务。只使用现成 Agent 产品的人，不必急着把它当成能力跃迁；更应该等开源 35B-A3B 在真实仓库、真实网页、真实 API 上的复现实验。

这篇工作的落点很具体：如果一个 Agent 在行动前不会估计环境后果，它就很难在长任务里稳定。Qwen-AgentWorld 给出的答案，是先训练一个能预测环境的模型，再让 Agent 在这个可控世界里学会犯错、修正和选择下一步。

Qwen-AgentWorld：让 Agent 先学会预测世界