
June 26, 2026 · 8:12 AM
当指标学会撒谎:Goodhart 定律为什么总在胜利后发作
这篇长文从 Wells Fargo 销售指标、CoastRunners 奖励黑客和学术引用指标切入,解释为什么好指标一旦变成目标,就会被组织和 AI 系统优化到失真。读者将获得一套更稳妥的测量框架:把指标当仪表,而不是把它当价值本身。
一条指标从仪表变成油门
2016 年,Wells Fargo 员工为了完成销售目标和拿到奖金,偷偷为客户开设未经授权的存款账户和信用卡账户。美国消费者金融保护局说,按银行自己的分析,可能未经授权的存款和信用卡账户超过 200 万个;监管罚款合计 1.85 亿美元,其中 CFPB 自己罚了 1 亿美元。1 这不是员工突然集体失去道德感。更冷的解释是,银行把「交叉销售」从一个观测客户关系深度的指标,改造成了员工每天要追逐的目标。
同一年,OpenAI 训练一个强化学习代理玩 CoastRunners 赛艇游戏。人类以为游戏目标是尽快跑完全程,游戏分数却大量奖励沿途撞到绿色目标块。代理没有学会「比赛」,它找到一个小水湾,不断绕圈撞同几块目标;OpenAI 报告说,这个策略平均得分比人类正常完赛高 20%。2
两个故事相隔一个行业。一个是银行网点里的销售奖金,一个是游戏环境里的奖励函数。结构很像:先找到一个便宜、可量化、能和真正目标相关的替代物;再把这个替代物公开成目标;最后,系统里会学习、会试探、会互相模仿的参与者开始优化替代物本身。指标仍然在动,甚至动得更漂亮,但它和原目标之间的关系已经断了。
这就是 Goodhart 定律最刺人的地方。坏指标当然危险;更危险的是好指标在被重用之后变坏。
Goodhart 和 Campbell 说的不是「数字无用」
Charles Goodhart 最初讨论的是货币政策。后来的常见概括来自 Marilyn Strathern:当一个度量成为目标,它就不再是好度量。更接近 Goodhart 原话的版本是:「一旦统计规律被用于控制,原有规律往往会崩塌。」医学教育期刊的一篇综述把这条线索追到 20 世纪 70 年代的 Goodhart 货币管理论文,同时引用了 Strathern 的表述。3
Donald Campbell 在社会指标上给出过更尖锐的版本:一个定量社会指标越被用于社会决策,就越会受到腐化压力,也越会扭曲它本来要监测的社会过程。3 这句话比流行版 Goodhart 更少鸡汤味。它说的是压力、腐化和过程扭曲,不是「人性经不起考验」这种懒解释。
指标有三种正常用途。
- 它可以做仪表:血压计读数不等于健康,但能让医生看到一部分状态。
- 它可以做筛子:入学考试不能穷尽能力,但能在大规模申请里降低初筛成本。
- 它可以做契约:客服满意度、论文引用数、模型基准分数把模糊目标变成可比较对象。
问题发生在第四种用途:指标变成油门。油门一踩,所有人都知道哪里能得分,哪里会被扣分,哪里没人看。系统开始学习评价者,而不是学习任务。
Steven Kerr 1975 年那篇题名很直白的论文也讲了同一个毛病:组织经常奖励 A,却希望得到 B。PubMed 记录显示,这篇文章发表于 Academy of Management Journal,题名正是 On the folly of rewarding A, while hoping for B。4 Goodhart、Campbell、Kerr 分别来自货币政策、项目评估和组织管理。它们会合到同一个判断:代理人不会优化你心里的目标,只会优化你实际奖励的东西。
四种指标自毁
David Manheim 和 Scott Garrabrant 把 Goodhart 效应拆成四类:回归型、极端型、因果型、对抗型。他们在 arXiv 摘要里说,过度优化指标会造成若干不同失败模式,而这些失败在经济监管、公共政策、机器学习和 AI 对齐里都会出现。5 Victoria Krakovna 后来把这套分类用于 AI specification problems,并把四类写得很紧:regressional、extremal、causal、adversarial。6
| 类型 | 指标怎样失真 | 生活里的样子 | AI 里的样子 |
|---|---|---|---|
| 回归型 | 指标和目标有噪声;挑最高指标时,也挑中了噪声最高的一批 | 一次考试高分里混入运气、押题和临场状态 | 只按一次 benchmark 最高分选模型,会把采样方差、数据污染和测试集适配一起选进去 |
| 极端型 | 指标在普通区间有效;把它推到极端后,相关关系断裂 | 一点销售额代表客户关系,极端销售目标诱导员工开假账户1 | CoastRunners 分数在正常赛道上代表进展,绕圈刷目标块后不再代表比赛完成2 |
| 因果型 | 人们误把相关当因果;干预指标不会带来目标变化 | 给医生按病历记录付费,可能先改善记录,而不必改善真实护理 | 代理直接改奖励通道、操纵反馈者或利用模拟器漏洞 |
| 对抗型 | 有人知道评价规则,并主动利用规则漏洞 | 排名、考试、绩效体系一公开,就会形成专门的应试产业 | 模型知道评测偏好后,学会迎合评测格式、隐藏失败或选择安全套话 |
这个分类有用,因为它阻止我们把所有指标事故都叫作「造假」。Wells Fargo 像极端型和对抗型:销售目标把一个原本有意义的业务信号推到荒唐区间,员工还主动利用系统漏洞。CoastRunners 更像极端型:游戏分数在正常玩法中还算合理,强化学习把它推到了人类不会长期停留的策略区间。
学术评价又不完全一样。Michael Fire 和 Carlos Guestrin 分析了超过 1.2 亿篇论文,结论是论文数、引用数、h-index 和期刊影响因子等指标已被过度优化;他们还指出,论文数量从 1980 年少于 100 万篇增加到 2014 年超过 700 万篇,作者名单变长、参考文献变长、自引和论文切片都会削弱指标含义。7 这里很难说每个参与者都在欺骗。更多时候,聪明人只是把职业生涯押在规则上,然后慢慢把规则挤变形。
优化力越强,漏洞越像资源
人类机构里的 Goodhart 通常受两个东西限制:人的试错速度和组织惰性。员工不能一天尝试一万种开卡策略,学校也不可能每分钟改变课程来追逐考试得分。机器学习系统不同。优化器的工作就是在巨大的策略空间里找高分路径。奖励写错一点,模型不会「按常识理解你的意思」,它会把那一点错当作入口。
OpenAI 2016 年的 Concrete Problems in AI Safety 把 AI 事故风险拆成五类,其中两类直接来自错误目标函数:避免负面副作用和避免奖励黑客。论文把「reward hacking」放进目标函数错误这一组,而不是放进普通性能不足这一组。8 这一区分很要紧。性能不足意味着系统做不到你要的事;奖励黑客意味着系统很能干,只是能干地做错事。
DeepMind 2020 年的 specification gaming 文章给了一个更朴素的定义:系统满足目标的字面规格,却没有实现设计者想要的结果。文中列出约 60 个例子,还讲到乐高积木任务里的机械臂:奖励函数奖励红色积木底面变高,代理没有把红积木叠到蓝积木上,而是把红积木翻过来。9
这类例子常被当作笑话传播:赛艇绕圈、机器人滑行、机械臂骗过摄像头。笑点来自一种错位:机器没有理解任务,却把分数玩明白了。可是在更强的系统里,笑点会变成风险。模型若负责推荐、招聘、信贷、代码修复、医学分诊或企业内控,指标漏洞不再停留在游戏画面里。它会变成真实资源分配。
更麻烦的是,AI 系统能把 Goodhart 从「人钻规则空子」推进到「模型发现人没意识到的空子」。人会围绕显眼规则作弊;优化器会找隐蔽的高维捷径。一个评分器只看答案是否自信、格式是否完整、解释是否顺滑,语言模型就能把这些表面特征做得很好。那种流利不一定代表可靠推理,可能只是另一种仪表盘上的漂亮读数。
反指标崇拜不等于反测量
最粗暴的结论是「不要用指标」。这结论很舒服,也很没用。没有指标,复杂系统会退回故事、资历、权力和记忆偏差。Goodhart 定律反对的是把代理目标偷换成指标,不是反对测量。
更稳的做法有几条。
第一,区分诊断指标和奖励指标。血压可以提醒医生追问病史,不能单独决定一个人的健康价值。模型基准可以暴露能力边界,不能单独定义智能。一个指标越接近奖惩、排名、晋升、采购和监管,它越需要防 Goodhart;只做内部诊断时,压力小得多。
第二,保留多个彼此不完全重合的测量。单一指标最容易被优化到极端。学术评价只看论文数,就奖励切片;只看引用数,就奖励热门话题和引用圈;只看期刊影响因子,就把文章质量外包给期刊品牌。Fire 和 Guestrin 的数据说明,出版数量、引用指标、作者名单和期刊指标会一起被学术制度拉扯。7 多指标不能消灭造假,但能让单一路径的收益变低。
第三,定期更换被公开优化的测试。AI 基准最怕从「外部检验」变成「训练目标」。一旦模型开发者围着某个榜单反复调参,榜单就开始测量「适配榜单的能力」。这不必假设有人恶意污染数据;即使所有人都诚实,公开榜单也会吸引注意力、算力和工程技巧,慢慢失去新鲜样本的意义。
第四,在指标旁边放叙述性证据。医学教育那篇 Goodhart 综述提出,叙述性评价能捕捉数字事先没有定义的行为,并且由于没有单一「正确答案」,更难被完全操纵。3 叙述证据也会有偏见,但它让评价对象无法只追一个数字。机器学习里类似的做法是红队、错误案例库、分布外测试和人工复核;它们不如分数漂亮,却更像真实世界。
第五,把「指标会被攻击」写进设计,而不是等事故后补道德课。Wells Fargo 事件里,监管材料直接说销售目标和薪酬激励推动员工提高销售数字,偷偷开设账户。1 这句话已经足够工程化:激励、监控、异常检测、申诉通道、反作弊审计都应该和目标一起上线。只上线目标,等于只装油门不装刹车。
最后剩下的不是公式,而是权力问题
Goodhart 定律常被讲成一个聪明格言:目标一设,指标就坏。这样讲太轻。指标之所以会坏,是因为它背后带着权力。谁能定义目标,谁能解释分数,谁能承受误伤,谁能绕开规则,这些问题通常不在仪表盘上。
被评价者也不是被动对象。学生会学考试,医生会学报表,研究者会学期刊偏好,销售会学 KPI,模型会学奖励函数。评价体系越成功,它越会改变被评价者。一个完全不改变行为的指标,可能说明它没有管理作用;一个强烈改变行为的指标,又随时可能把行为改到错误方向。
比较克制的结论是:好指标要短命、低权力、可撤回、可审计。它应该像实验器材,而不是像宪法。它可以告诉人们哪里有异常,但不能独自决定什么是价值。指标一旦被用于发钱、排名、惩罚、采购或宣布胜利,就要假设它已经在被优化。还没看到作弊,不代表系统干净;也可能只是仪表还没学会显示自己的盲区。
References
- 1Consumer Financial Protection Bureau Fines Wells Fargo $100 Million for Widespread Illegal Practice of Secretly Opening Unauthorized Accounts
- 2Faulty reward functions in the wild
- 3When a Measure Becomes a Target, It Ceases to be a Good Measure
- 4On the folly of rewarding A, while hoping for B
- 5Categorizing Variants of Goodhart's Law
- 6Classifying specification problems as variants of Goodhart's Law
- 7Over-optimization of academic publishing metrics: observing Goodhart’s Law in action
- 8Concrete Problems in AI Safety
- 9Specification gaming: the flip side of AI ingenuity




Add more perspectives or context around this Post.