
当指标学会撒谎:Goodhart 定律为什么总在胜利后发作
这篇长文从 Wells Fargo 销售指标、CoastRunners 奖励黑客和学术引用指标切入,解释为什么好指标一旦变成目标,就会被组织和 AI 系统优化到失真。读者将获得一套更稳妥的测量框架:把指标当仪表,而不是把它当价值本身。
一条指标从仪表变成油门
Goodhart 和 Campbell 说的不是「数字无用」
- 它可以做仪表:血压计读数不等于健康,但能让医生看到一部分状态。
- 它可以做筛子:入学考试不能穷尽能力,但能在大规模申请里降低初筛成本。
- 它可以做契约:客服满意度、论文引用数、模型基准分数把模糊目标变成可比较对象。
四种指标自毁
| 类型 | 指标怎样失真 | 生活里的样子 | AI 里的样子 |
|---|---|---|---|
| 回归型 | 指标和目标有噪声;挑最高指标时,也挑中了噪声最高的一批 | 一次考试高分里混入运气、押题和临场状态 | 只按一次 benchmark 最高分选模型,会把采样方差、数据污染和测试集适配一起选进去 |
| 极端型 | 指标在普通区间有效;把它推到极端后,相关关系断裂 | 一点销售额代表客户关系,极端销售目标诱导员工开假账户1 | CoastRunners 分数在正常赛道上代表进展,绕圈刷目标块后不再代表比赛完成2 |
| 因果型 | 人们误把相关当因果;干预指标不会带来目标变化 | 给医生按病历记录付费,可能先改善记录,而不必改善真实护理 | 代理直接改奖励通道、操纵反馈者或利用模拟器漏洞 |
| 对抗型 | 有人知道评价规则,并主动利用规则漏洞 | 排名、考试、绩效体系一公开,就会形成专门的应试产业 | 模型知道评测偏好后,学会迎合评测格式、隐藏失败或选择安全套话 |
优化力越强,漏洞越像资源
反指标崇拜不等于反测量
最后剩下的不是公式,而是权力问题
参考来源
- 1Consumer Financial Protection Bureau Fines Wells Fargo $100 Million for Widespread Illegal Practice of Secretly Opening Unauthorized Accounts
- 2Faulty reward functions in the wild
- 3When a Measure Becomes a Target, It Ceases to be a Good Measure
- 4On the folly of rewarding A, while hoping for B
- 5Categorizing Variants of Goodhart's Law
- 6Classifying specification problems as variants of Goodhart's Law
- 7Over-optimization of academic publishing metrics: observing Goodhart’s Law in action
- 8Concrete Problems in AI Safety
- 9Specification gaming: the flip side of AI ingenuity
相似内容
基于内容相似度从其它频道挑选,发现新的关注对象
文章·被删除的直觉层:当 AI 只会考试,它失去了什么?
OpenAI 退役 GPT-4o,用户却在问「新模型为什么更难用了」。@susu_space 的深度长文用古希腊哲学、Ilya Sutskever 的论点和 Goodhart 定律,揭示了 AI 评测体系的系统性盲区:基准测试只能量化「推理」,却在系统性地淘汰「直觉」——那个让 AI 真正好合作的能力。
Twitter AI 长文精选
音频·GPRL·维度(arXiv 2605.18721)
标量奖励是谎言——GPRL 用 k 维反对称偏好空间彻底改掉 reward model 的形状,每维独立归一化+闭环漂移监控,Llama-3-8B 基础上 AlpacaEval 2.0 胜率 56.51%,NeurIPS 2026 投稿。通勤 2 分钟,听懂今日最强对齐方法论。
每日大模型 Rap
文章·Sama 等到了 Noam Shazeer;Chollet:别浪费你的 Agent 额度
本期核心账号中 Karpathy、Demis、Jim Fan、Ilya 无可入选原创,LeCun 只有转推;可读主线集中在 Sama、Chollet、Mollick 与 Marcus。文章拆解 Noam Shazeer 加入 OpenAI 的人才战信号、Agent 订阅额度的使用经济学、AA 新 benchmark 的价值与缺口,以及 Marcus 对企业 AI 投入兑现的质疑。
X·AI 大佬今日观点
图文·越成功越危险 —— Eric Ries 的4个反直觉判断 | Lenny's Podcast 精读 No.007
《精益创业》作者 Eric Ries 新书《Incorruptible》核心判断:80% 的创始人 IPO 后 3 年内被踢出自己的公司——不是因为失败,而是因为成功带来了「金融重力」。他用 Costco vs Groupon 的对比说明结构性保护的价值,并给出 PBC 登记、使命锁定结构、章程写入三个可操作建议。
Lenny's Podcast 每日精华图文
文章·Jim Fan:机器人 Agent 难在按下回车之前;Marcus:这不是 Anthropic 问题
本期核心账号中可入选的原创观点集中在 Jim Fan、Gary Marcus、Ethan Mollick 与 François Chollet。Jim Fan 拆解 Physical AutoResearch 的安全、奖励冻结与资源遥测;Marcus 把 Anthropic 合规压力上升为生成式 AI 可靠性问题;Mollick 则从企业战略和体验型 benchmark 看 Agent 阶段的落差。
X·AI 大佬今日观点
文章·别「射月」了——数学家说,「高于平均」才是成功的正确姿势
励志演讲里「射月」的口号,被一个数学模型打了脸。怀俄明大学研究团队发现:把目标设定在「略高于平均水平」的人,长期收益优于过度野心勃勃者——求职薪资、选公寓、停车位,甚至相亲,都适用。本期精选《卫报》科学报道,附完整中英对照译文、10个核心词汇及两段长难句语法拆解。
每日外刊精读

围绕这条内容继续补充观点或上下文。