三个容易被混为一谈的评测锚点
它们都能产生分数,但测量对象并不相同。

这篇首发长文拆解大模型基准测试污染:为什么公开榜单越成功,越容易被训练数据、工程激励与人类偏好反向塑形。读者将获得一套读懂 MMLU、MMLU-CF、LiveBench、Chatbot Arena 等评测结果的怀疑性框架。
リサーチノート
| 名称 | 它本来想解决什么 | 它暴露出的新问题 |
|---|---|---|
| MMLU | 用 57 个学科/任务衡量多任务语言理解,并把模型放到接近考试的环境里比较。2 | 一旦成为常用公共靶标,它的题目、题型、答案分布和衍生材料都可能进入训练和调参生态。 |
| GPT-4 技术报告里的专业考试 | 把模型放进律师资格考试、AP、奥赛等人类熟悉的标尺;报告称 GPT-4 在模拟律师资格考试中达到约前 10% 水平。3 | 这些分数很会传播,但它们不自动回答「训练阶段是否见过相似题」「评测是否已被工程化适配」的问题。 |
| ConTAM/污染检测研究 | 试图衡量评测集在训练语料中的污染,并比较不同污染指标的信号强弱。4 | 污染不是一个单一二元变量;最长污染子串、污染并集、模型与基准特异阈值会给出不同解释。 |
| MMLU-CF | 构造一个面向 MMLU 的 contamination-free 多选基准;论文称从 200B+ 网页中取题并采用去污染规则,评测 40+ 模型后发现性能下降和排名变化。5 | 即便题型相似,换成更抗污染的题集,原来的模型排序也可能被扰动。 |
| LiveBench | 频繁更新题目、用客观 ground truth 自动评分,覆盖数学、编程、推理、语言、指令遵循和数据分析等类别;论文称榜首模型仍低于 70% 准确率。6 | 动态基准减少了静态题库污染,但也带来维护成本、版本比较和覆盖范围问题。 |
| Chatbot Arena | 用开放人类偏好投票做成对比较;论文报告早期平台积累 240K+ 票,并讨论众包偏好与专家判断的一致性。7 | 人类偏好更贴近产品体验,但也可能把风格、讨好性、长度偏好和用户群偏差带进评分。 |
このコンテンツについて、さらに観点や背景を補足しましょう。