No Priors × Noam Brown:评测 AI 不能只看分数,还要看它花多少钱在思考
2026. 6. 29. · 09:18

No Priors × Noam Brown:评测 AI 不能只看分数,还要看它花多少钱在思考

Noam Brown 在 No Priors 访谈中解释,现代 AI 的能力越来越取决于测试时算力预算;如果 benchmark 只给一个分数,却不显示 token、时间和成本,安全评估、模型发布和应用路由都会被误导。

这期讲了什么

本周入选的是 No Priors 6 月 26 日发布的访谈,主持人 Sarah Guo 对话 OpenAI 研究科学家 Noam Brown,主题是大模型评测为什么越来越难只用一张 benchmark grid 说清楚。节目标题是「Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown」,YouTube 版时长 36 分 19 秒,Apple Podcasts 音频发布时间为北京时间 2026 年 6 月 26 日 18:13,YouTube 版发布时间为 18:25。1
字段信息
播客No Priors: Artificial Intelligence | Technology | Startups
主持人Sarah Guo
嘉宾Noam Brown,OpenAI research scientist
集标题Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown
发布日期2026 年 6 月 26 日
原集链接YouTube 原集
콘텐츠 카드를 불러오는 중…
Brown 的主张很直接:现在的模型能力已经不是一个固定分数,而是「给它多少测试时算力」的函数。同一个模型,在 10 美元、1 万美元、1000 万美元推理预算下能做的事完全不同;如果评测表只给一个分数,读者看不到模型花了多少 token、时间或金钱才拿到这个分数。1

benchmark grid 的问题:它把「思考成本」藏起来了

Brown 讲这件事的起点,是他看到新模型发布后的典型反应:benchmark 表格上只比旧模型高几个百分点,很多人会怀疑它是不是没强多少。但他认为,这种表格漏掉了关键变量。新模型可能用更少的思考时间拿到同样或更好的结果;如果把横轴换成测试时算力,差距会明显得多。1
他给出的替代做法有两个:要么为每个 benchmark 设定明确预算,例如 token、时间或美元成本;要么直接画出性能随测试时算力变化的曲线。这样读者能看到模型在不同预算下的效率,而不是只看到一个被压扁的最终分数。Brown 还提到,网络安全一类评测里,模型跑到 1 亿 token 之后仍在变好,说明「跑到平台期再评」在很多任务上已经不现实。1
这也解释了为什么简单的「多采样再投票」会让 benchmark 看起来更漂亮。把同一个模型跑五遍,再让 judge 选最好答案,分数可能会上去;但这不等于模型本体更强。Brown 的判断标准是:控制测试时算力后,这种路由、投票或多模型共识还是否更好。否则只是把额外预算藏进系统里。1

个人评测:让模型写 poker solver

Brown 不太满足于「玩一会儿模型」这种模糊体验。他自己的私人评测,是让模型做 poker bot。这个任务很适合暴露推理缺口:公开代码不多,有论文可读,工程实现里又有很多小坑。
他回忆,早期模型几乎做不了什么;到了某个 5.2 版本,他可以在模型帮助下写出 river solver,速度大约是自己独立完成的 5 倍。优化代码时,模型甚至能把他写的实现加速 10 倍到 100 倍。但同一代模型也会「硬拗」:他问「锅里有 100 美元,我弃牌会损失多少」,模型答 92 美元,还解释说 92 接近 100,所以问题不大。1
到 5.5,Brown 说模型已经接近能在轻度引导下完成 full-scale poker solver。他甚至判断,6 到 12 个月后,模型可能零样本完成「相当于自己博士论文」的 solver。这个例子很有用,因为它同时展示了两面:模型已经能大幅压缩工程和优化时间,但在真正提出新算法、判断研究方向时,仍然缺少研究品味。1

安全评测:危险能力也会随预算增长

这期最重要的安全含义,是 preparedness framework 和 responsible scaling policy 不能再只问「模型有没有某种能力」。Brown 认为,问题已经变成「在什么预算下有这种能力」。GPT-3 时代,给模型 1 美元或 1000 万美元预算,差别有限;现在不同,现代模型在足够脚手架和足够时间下,可以连续做数周甚至数月的任务。1
这会让发布前评测很尴尬。若想知道一个 agent 连跑一个月能做什么,严格说就得真的跑一个月;若想知道半年上限,就得跑半年。但前沿模型发布周期可能只有两三个月,模型还没被外界推到上限,下一代已经出来了。Brown 说,大家很可能还没有充分探索已发布模型的潜在能力。1
他用 Erdős unit distance conjecture 举例:OpenAI 内部模型曾给出反例;后来有人发现,如果给 5.5 合适脚手架,让它列出路径、逐条探索,也可能到达类似结果。Brown 粗略估计,用通用脚手架重现这类发现可能要 1000 到 10 万美元,但随着模型迭代,成本可能每轮下降 10 到 100 倍。1

对 RSI 的判断:加速是真的,隔夜爆炸不一定

Brown 没有把大规模测试时算力直接等同于「给模型无限预算,它就能做完所有人的工作」。他区分了几类任务:事实记忆题没有外部信息时,想一周也未必想出 Lincoln 的生日;Sudoku 这类可暴力搜索的任务,预算越多越有用。大多数 AI 研究任务夹在中间。1
在 recursive self-improvement 上,他的看法偏渐进。模型已经在加速前沿实验室研究员,但加速的是一部分工作。代码实现、实验、优化可以快很多;研究 taste、提出好问题、判断哪条路值得追,仍是瓶颈。等一部分环节快 100 倍后,整个系统会被没变快的环节卡住。1
所以他不太相信「一夜之间」的智能爆炸。原因反而来自 test-time compute:如果最强能力需要模型持续运行很久才能释放,时间本身就成了限制。前沿竞争仍然激烈,但更像研究员、算力、评测、政策决策一起被压缩进更短周期,而不是某个模型瞬间独自完成全部递归改进。1

多智能体的下一步:让知识不要每次都消失

节目最后一段谈到 multi-agent。Brown 认为这个方向已经被很多人探索,但大规模协调还只是开头。他用人类文明作类比:过去 5 万年,人没有明显进化得更聪明,文明能力来自很多人长期积累、共享并接续知识。今天的 AI 往往在短上下文里出生,完成任务后又消失,无法自然继承别的模型已经学到的东西。1
他提到 Multbook 和 OpenClaw 一类项目时语气谨慎:早期可能被高估,但指向了未来形态,即模型能在更全局的层面共享知识、形成持续的协作状态。对做 AI 应用的人来说,这期的实际提醒也很清楚:如果你卖的是路由层、共识层或任务编排层,不要只展示更高 benchmark 分数;把同样预算给单个强模型多想一会儿,再比较你的系统是否仍然更好。1
这期访谈的价值,不在于又给了一个「模型会不会替代研究员」的答案,而是把评测问题压回到一个朴素变量:钱、token 和时间。以后看任何模型发布,如果只有分数表,没有预算轴,信息都少了一半。

관련 콘텐츠

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.