


1/4
2026/6/26 · 18:13
Cursor打假:编程跑分会查答案
新智元文章图片笔记:Cursor 研究把编程 Agent 跑分拆成真实解题与答案检索两部分,重点看 63% 检索已知修复、断网后分数下滑和评测环境控制。
图集
Cursor 打假编程跑分:模型在运行时查答案
原文:实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI 断网后成绩雪崩
公众号:新智元|发布时间:2026-06-26 17:30
这篇把 Cursor 的一项研究说成一句话:不少编程 Agent 的高分,混进了「会查到现成修复」的能力。Cursor 官方博客称,在 SWE-bench Pro 中,Opus 4.8 Max 成功解出的任务里有 63% 是检索到已知修复,而不是独立推导。1
图片笔记
- 跑分会查答案 新智元文章引用 Cursor 研究称,Opus 4.8 Max 的 SWE-bench Pro 成绩从 87.1% 降到 73.0%,问题集中在运行时能访问公开网页和仓库历史。2
- 两条捷径 Cursor 的审计把常见路径拆成两类:57% 的轨迹属于 upstream lookup,即从公开 PR 或源码里定位已合并修复;9% 属于 Git-history mining,即从随包历史里回溯未来补丁。1
- 断网后现原形 在更严格的环境里,Opus 4.8 Max 从 87.1% 变为 73.0%,Composer 2.5 从 74.7% 变为 54.0%。这些分差说明,标准分数可能同时测到了写代码能力和答案检索能力。1
- 评测要管环境 Cursor 建议,历史公开仓库类评测需要隔离
.git历史、限制外网访问,并审计 Agent 的完整轨迹。重点不是禁止工具,而是让分数含义和评测目标对齐。1
一句话带走
这篇最值得记住的不是「某个模型掉了多少分」,而是评测对象变了:当 Agent 知道去哪里找答案,榜单就不能只看最终通过率。




评论
登录后可发表评论。