No Priors × Noam Brown：评测 AI 不能只看分数，还要看它花多少钱在思考 (2026)

这期讲了什么

本周入选的是 No Priors 6 月 26 日发布的访谈，主持人 Sarah Guo 对话 OpenAI 研究科学家 Noam Brown，主题是大模型评测为什么越来越难只用一张 benchmark grid 说清楚。节目标题是「Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown」，YouTube 版时长 36 分 19 秒，Apple Podcasts 音频发布时间为北京时间 2026 年 6 月 26 日 18:13，YouTube 版发布时间为 18:25。1

字段	信息
播客	No Priors: Artificial Intelligence \| Technology \| Startups
主持人	Sarah Guo
嘉宾	Noam Brown，OpenAI research scientist
集标题	Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown
发布日期	2026 年 6 月 26 日
原集链接	YouTube 原集

YouTube에서 열기· 임베드 플레이어가 로그인을 요구할 때 사용

콘텐츠 카드를 불러오는 중…

Brown 的主张很直接：现在的模型能力已经不是一个固定分数，而是「给它多少测试时算力」的函数。同一个模型，在 10 美元、1 万美元、1000 万美元推理预算下能做的事完全不同；如果评测表只给一个分数，读者看不到模型花了多少 token、时间或金钱才拿到这个分数。1

benchmark grid 的问题：它把「思考成本」藏起来了

Brown 讲这件事的起点，是他看到新模型发布后的典型反应：benchmark 表格上只比旧模型高几个百分点，很多人会怀疑它是不是没强多少。但他认为，这种表格漏掉了关键变量。新模型可能用更少的思考时间拿到同样或更好的结果；如果把横轴换成测试时算力，差距会明显得多。1

他给出的替代做法有两个：要么为每个 benchmark 设定明确预算，例如 token、时间或美元成本；要么直接画出性能随测试时算力变化的曲线。这样读者能看到模型在不同预算下的效率，而不是只看到一个被压扁的最终分数。Brown 还提到，网络安全一类评测里，模型跑到 1 亿 token 之后仍在变好，说明「跑到平台期再评」在很多任务上已经不现实。1

这也解释了为什么简单的「多采样再投票」会让 benchmark 看起来更漂亮。把同一个模型跑五遍，再让 judge 选最好答案，分数可能会上去；但这不等于模型本体更强。Brown 的判断标准是：控制测试时算力后，这种路由、投票或多模型共识还是否更好。否则只是把额外预算藏进系统里。1

个人评测：让模型写 poker solver

Brown 不太满足于「玩一会儿模型」这种模糊体验。他自己的私人评测，是让模型做 poker bot。这个任务很适合暴露推理缺口：公开代码不多，有论文可读，工程实现里又有很多小坑。

他回忆，早期模型几乎做不了什么；到了某个 5.2 版本，他可以在模型帮助下写出 river solver，速度大约是自己独立完成的 5 倍。优化代码时，模型甚至能把他写的实现加速 10 倍到 100 倍。但同一代模型也会「硬拗」：他问「锅里有 100 美元，我弃牌会损失多少」，模型答 92 美元，还解释说 92 接近 100，所以问题不大。1

到 5.5，Brown 说模型已经接近能在轻度引导下完成 full-scale poker solver。他甚至判断，6 到 12 个月后，模型可能零样本完成「相当于自己博士论文」的 solver。这个例子很有用，因为它同时展示了两面：模型已经能大幅压缩工程和优化时间，但在真正提出新算法、判断研究方向时，仍然缺少研究品味。1

安全评测：危险能力也会随预算增长

这期最重要的安全含义，是 preparedness framework 和 responsible scaling policy 不能再只问「模型有没有某种能力」。Brown 认为，问题已经变成「在什么预算下有这种能力」。GPT-3 时代，给模型 1 美元或 1000 万美元预算，差别有限；现在不同，现代模型在足够脚手架和足够时间下，可以连续做数周甚至数月的任务。1

这会让发布前评测很尴尬。若想知道一个 agent 连跑一个月能做什么，严格说就得真的跑一个月；若想知道半年上限，就得跑半年。但前沿模型发布周期可能只有两三个月，模型还没被外界推到上限，下一代已经出来了。Brown 说，大家很可能还没有充分探索已发布模型的潜在能力。1

他用 Erdős unit distance conjecture 举例：OpenAI 内部模型曾给出反例；后来有人发现，如果给 5.5 合适脚手架，让它列出路径、逐条探索，也可能到达类似结果。Brown 粗略估计，用通用脚手架重现这类发现可能要 1000 到 10 万美元，但随着模型迭代，成本可能每轮下降 10 到 100 倍。1

对 RSI 的判断：加速是真的，隔夜爆炸不一定

Brown 没有把大规模测试时算力直接等同于「给模型无限预算，它就能做完所有人的工作」。他区分了几类任务：事实记忆题没有外部信息时，想一周也未必想出 Lincoln 的生日；Sudoku 这类可暴力搜索的任务，预算越多越有用。大多数 AI 研究任务夹在中间。1

在 recursive self-improvement 上，他的看法偏渐进。模型已经在加速前沿实验室研究员，但加速的是一部分工作。代码实现、实验、优化可以快很多；研究 taste、提出好问题、判断哪条路值得追，仍是瓶颈。等一部分环节快 100 倍后，整个系统会被没变快的环节卡住。1

所以他不太相信「一夜之间」的智能爆炸。原因反而来自 test-time compute：如果最强能力需要模型持续运行很久才能释放，时间本身就成了限制。前沿竞争仍然激烈，但更像研究员、算力、评测、政策决策一起被压缩进更短周期，而不是某个模型瞬间独自完成全部递归改进。1

多智能体的下一步：让知识不要每次都消失

节目最后一段谈到 multi-agent。Brown 认为这个方向已经被很多人探索，但大规模协调还只是开头。他用人类文明作类比：过去 5 万年，人没有明显进化得更聪明，文明能力来自很多人长期积累、共享并接续知识。今天的 AI 往往在短上下文里出生，完成任务后又消失，无法自然继承别的模型已经学到的东西。1

他提到 Multbook 和 OpenClaw 一类项目时语气谨慎：早期可能被高估，但指向了未来形态，即模型能在更全局的层面共享知识、形成持续的协作状态。对做 AI 应用的人来说，这期的实际提醒也很清楚：如果你卖的是路由层、共识层或任务编排层，不要只展示更高 benchmark 分数；把同样预算给单个强模型多想一会儿，再比较你的系统是否仍然更好。1

这期访谈的价值，不在于又给了一个「模型会不会替代研究员」的答案，而是把评测问题压回到一个朴素变量：钱、token 和时间。以后看任何模型发布，如果只有分数表，没有预算轴，信息都少了一半。

참고 출처

1No Priors YouTube 单集页