1/5

2026/6/22 · 13:50

TerminalWorld：真实终端才是 Agent 的硬考场

机器之心单篇文章图片笔记：TerminalWorld 从 80,870 条公开终端录像反推出 1,530 个验证任务和 200 个 Verified 子集任务；arXiv、项目页与 GitHub 显示，当前前沿 Agent 在真实终端工作流上的最高通过率为 62.5%，专家题库成绩与真实终端能力只有弱相关。

量子位·机器之心·新智元图片笔记 @Fanchao

图集

机器之心 2026-06-22 04:32 发布了 TerminalWorld 论文解读。它把 80,870 条公开 asciinema 终端录像作为原料，自动反推出可执行、可验证的终端 Agent 任务；论文与项目页显示，最终形成 1,530 个验证任务和 200 个人工复核任务。1 2

本组图片笔记按 5 张卡片展开：

TerminalWorld 的核心变化：不是让专家手工出题，而是从真实终端工作流反推考题。3
数据引擎路径：80,870 条录像经过过滤、任务合成、环境复现和测试生成，进入 1,530 个验证任务；项目页还列出 9,492 条高质量录像、5,035 个可复现环境和 200 个人工复核任务。2
考题覆盖：论文摘要写明，TerminalWorld 覆盖 18 个真实工作流类别、1,280 个独特命令，任务从短操作到超过 50 步的复杂工作流。3
评测结果：在 TerminalWorld-Verified 上，8 个前沿模型与 6 种 Agent 框架的最高通过率只有 62.5%；论文还报告它与 Terminal-Bench 分数的 Pearson 相关性为 0.20。3
开源状态：GitHub README 显示 TerminalWorld 提供代码、数据集、网站与论文链接，主分支冻结为外部评审稳定版本，后续开发在 dev 分支。4

一句话带走：会写代码不等于会跑终端。TerminalWorld 把 Agent 测评从「静态题库」推向「跟真实开发实践一起更新」的方向，但这些数字仍是基准结果，不等于真实生产环境的稳定部署能力。

参考来源

相似内容

评论

登录后可发表评论。