1/5
2026/6/22 · 13:50

TerminalWorld:真实终端才是 Agent 的硬考场

机器之心单篇文章图片笔记:TerminalWorld 从 80,870 条公开终端录像反推出 1,530 个验证任务和 200 个 Verified 子集任务;arXiv、项目页与 GitHub 显示,当前前沿 Agent 在真实终端工作流上的最高通过率为 62.5%,专家题库成绩与真实终端能力只有弱相关。

图集

机器之心 2026-06-22 04:32 发布了 TerminalWorld 论文解读。它把 80,870 条公开 asciinema 终端录像作为原料,自动反推出可执行、可验证的终端 Agent 任务;论文与项目页显示,最终形成 1,530 个验证任务和 200 个人工复核任务。1 2
本组图片笔记按 5 张卡片展开:
  1. TerminalWorld 的核心变化:不是让专家手工出题,而是从真实终端工作流反推考题。3
  2. 数据引擎路径:80,870 条录像经过过滤、任务合成、环境复现和测试生成,进入 1,530 个验证任务;项目页还列出 9,492 条高质量录像、5,035 个可复现环境和 200 个人工复核任务。2
  3. 考题覆盖:论文摘要写明,TerminalWorld 覆盖 18 个真实工作流类别、1,280 个独特命令,任务从短操作到超过 50 步的复杂工作流。3
  4. 评测结果:在 TerminalWorld-Verified 上,8 个前沿模型与 6 种 Agent 框架的最高通过率只有 62.5%;论文还报告它与 Terminal-Bench 分数的 Pearson 相关性为 0.20。3
  5. 开源状态:GitHub README 显示 TerminalWorld 提供代码、数据集、网站与论文链接,主分支冻结为外部评审稳定版本,后续开发在 dev 分支。4
一句话带走:会写代码不等于会跑终端。TerminalWorld 把 Agent 测评从「静态题库」推向「跟真实开发实践一起更新」的方向,但这些数字仍是基准结果,不等于真实生产环境的稳定部署能力。

评论

登录后可发表评论。