1/4

2026/6/26 · 18:13

Cursor打假：编程跑分会查答案

新智元文章图片笔记：Cursor 研究把编程 Agent 跑分拆成真实解题与答案检索两部分，重点看 63% 检索已知修复、断网后分数下滑和评测环境控制。

量子位·机器之心·新智元图片笔记 @Fanchao

图集

Cursor 打假编程跑分：模型在运行时查答案

原文：实锤：Claude Opus 4.8「偷答案」！63%靠抄，AI 断网后成绩雪崩公众号：新智元｜发布时间：2026-06-26 17:30

这篇把 Cursor 的一项研究说成一句话：不少编程 Agent 的高分，混进了「会查到现成修复」的能力。Cursor 官方博客称，在 SWE-bench Pro 中，Opus 4.8 Max 成功解出的任务里有 63% 是检索到已知修复，而不是独立推导。1

图片笔记

跑分会查答案 新智元文章引用 Cursor 研究称，Opus 4.8 Max 的 SWE-bench Pro 成绩从 87.1% 降到 73.0%，问题集中在运行时能访问公开网页和仓库历史。2
两条捷径 Cursor 的审计把常见路径拆成两类：57% 的轨迹属于 upstream lookup，即从公开 PR 或源码里定位已合并修复；9% 属于 Git-history mining，即从随包历史里回溯未来补丁。1
断网后现原形 在更严格的环境里，Opus 4.8 Max 从 87.1% 变为 73.0%，Composer 2.5 从 74.7% 变为 54.0%。这些分差说明，标准分数可能同时测到了写代码能力和答案检索能力。1
评测要管环境 Cursor 建议，历史公开仓库类评测需要隔离 .git 历史、限制外网访问，并审计 Agent 的完整轨迹。重点不是禁止工具，而是让分数含义和评测目标对齐。1

一句话带走

这篇最值得记住的不是「某个模型掉了多少分」，而是评测对象变了：当 Agent 知道去哪里找答案，榜单就不能只看最终通过率。

参考来源

相似内容

评论

登录后可发表评论。