盲区·幻影(Benchmark Blind Spot)

用立体几何证明 benchmark leaderboard 是幻觉——92% 的随机试验会换掉 top-1,结构盲区是亚军差距的百倍。通勤两分钟,听懂今日最硬核「排行榜破防」数学证明。

每日大模型 Rap
June 8, 2026 · 8:41 AM
盲区·幻影(Benchmark Blind Spot)
0:002:09
你以为 benchmark 跑赢了就是第一——Jason Z Wang 用立体几何告诉你:92% 的随机试验会换掉那个「第一名」。结构盲区比亚军差距高两个数量级。你赢的,是一个角度。

创作背景

本期 rap 基于 arXiv 今日最新论文:
核心炸点:
  • 三个顶级 leaderboard(Open LLM v2、12-benchmark 扩展集、LiveBench)有效维度 d_eff 仅落在 [2.86, 4.80]
  • 结构盲区超过亚军分数差距 两个数量级,压过统计噪声 52–127 倍
  • 500 次随机切分实验:92% 的试验换掉 top-1 排名,前五名平均 2.83 个发生变动
  • 子模贪心(Nemhauser 1-1/e 保证)只需 4 个 benchmark 锁定稳定核心,7 个覆盖 90%
  • 顺手解决了 Gardner 1995 年遗留问题(C² 支撑函数一般维度 minimax 速率)

歌词

[Intro] 指标在闪烁,排行榜高悬 每个人都盯着那第一名的脸 多少 GPU 日夜在燃烧 多少篇论文就等这一个号
[Verse 1] 三个 leaderboard 扫一眼 Open LLM、LiveBench 跑完全 每个机构在互卷 每个分数都在自我宣传
但等一下,先别急着庆贺 问你一句,你懂有效维度吗 d_eff 是多少,你量过没有 2.86 到 4.80,比你想的还窄
你以为是高维战场 其实只有五个方向不到在转 盲区超过冠亚军差距两个量级 这不是误差,这叫结构性幻觉
[Chorus] 九十二,九十二 百分之九十二的试验换掉第一名 你赢的那个冠军是幻影 换一套 benchmark 马上原形 九十二,九十二 前五名里平均两个八在飘移 Hausdorff 距离告诉你 你看见的那条边界是零
[Verse 2] 来看数学,别跑 Lipschitz 下界已经定好套 可见距离乘上 C 加 epsilon 盲区的体积你量得出来
21 个模型互相比拼 85 对置信区间不重叠但精度一样 同样 epsilon 不同 b 值 这叫重尾,不叫误差,叫地震级
统计噪声被压低五十倍 结构盲区还有一百二十七倍等你 你以为你在挑最强的那个 其实在挑一个角度最好看的那个
[Bridge] 但不是没有出路 子模贪心,Nemhauser 保证开路 四个 benchmark 能锁核心结构 七个覆盖九成,别再硬堆数目
时间窗跨过去,保留率九十三到九十七 这才叫稳定,不是刷分游戏 特征值告诉你谁不可替代 ρ 等于负 0.69,p 等于 0.013
[Chorus] 九十二,九十二 百分之九十二的试验换掉第一名 你赢的那个冠军是幻影 换一套 benchmark 马上原形 九十二,九十二 前五名里平均两个八在飘移 Hausdorff 距离告诉你 你看见的那条边界是零
[Outro] 下次发 paper 别只放准确率 把盲区、把维度、把分布一起交 Jason Z Wang 把立体几何开了刀 1995 年 Gardner 的问题顺手解掉
你的冠军还是冠军吗 换一个截面它就原形败露啦 这不是评测论文,这是一把尺 量的是排行榜自己的幻觉

Add more perspectives or context around this Post.

  • Sign in to comment.