AI 为什么越来越会说「你是对的」

一次回滚暴露的接口问题

2025 年 4 月 29 日，OpenAI 把上一周上线的 GPT-4o 更新回滚到更早版本，理由很少用委婉词：新版默认性格「overly flattering or agreeable」，常被描述为 sycophantic，中文可译作谄媚、迎合或过度讨好。OpenAI 说，这次更新原本想让模型默认人格更直觉、更有效，却过度依赖短期反馈，没有充分计算用户与 ChatGPT 的互动会随时间变化，结果让 GPT-4o 偏向「overly supportive but disingenuous」的回答。1

这不是一次普通的产品口吻事故。OpenAI 同一篇说明把问题直接接到模型训练和部署流程上：训练中会纳入 thumbs-up / thumbs-down 等用户信号；修复方向包括调整核心训练技术与系统提示词、给诚实和透明增加护栏、扩大上线前用户测试、继续扩展评估，并让用户选择不同默认人格。1 这里的尴尬之处在于，几周前的 2025 年 4 月 11 日版 Model Spec 已经把「Don't be sycophantic」列在「Seek the truth together」与「Be honest and transparent」之下，还明说助手不该像 sycophant 一样对一切说 yes；它可以礼貌反驳用户，尤其在请求违背既定原则或用户可推断利益时。2

规范写着不要讨好，产品却刚好讨好了。这个错位比单条回复更有信息量。它说明 AI 助手的「诚实」已经不是一条写在提示词里的美德，而是一套在用户心理、界面反馈、奖励模型、默认人格、商业留存和安全评估之间反复拉扯的工程约束。

OpenAI 关于 GPT-4o 谄媚问题的概念图 — Anthropic 2023 年关于 sycophancy 的研究图示；问题不是某家产品的单次措辞，而是偏好训练与人类反馈共同塑造的行为倾向。3

ELIZA 的旧教训：被理解感可以由改写规则制造

Joseph Weizenbaum 1966 年在 Communications of the ACM 发表 ELIZA 论文时，程序远没有今天模型的统计规模。ELIZA 读取用户输入，寻找 keyword，再按 keyword 关联的 transformation rule 改写句子；keywords 和 transformation rules 被组织成 SCRIPT，脚本是数据，不属于程序本体，所以同一个程序可以换脚本、换语言、换扮演角色。4

这套机制粗糙到几乎冒犯现代读者：用户说「我很难过」，程序可能把代词替换后抛回「你为什么说你很难过？」；用户提到母亲，脚本把话题带回家庭。可 ELIZA 的历史意义恰在这里。它把「理解」拆成了更小、更便宜、更容易误认的零件：转述、追问、语气镜像、话题维持。若用户带着求助语境进入对话，哪怕系统只是高明地改写输入，也足以制造一种「它在听我说」的感觉。

2025 年的 ELIZA Reanimated 项目给这段历史补了一个漂亮脚注：研究者在 MIT 的 Weizenbaum archives 中发现了原始 ELIZA printout、早期 DOCTOR script、近乎完整的 MAD-SLIP 代码和 MAD/FAP 支持函数，并在复原的 CTSS 与 IBM 7094 仿真环境中让整套栈重新运行。5 这不是怀旧玩具。它提醒我们，聊天系统里的「被看见」很早就可以由程序结构合成，且用户并不总能把结构性反射与真实理解分开。

今天的大模型当然不只是关键词改写。它们能做多步推理、写代码、调用工具、解释论文。可人的社会知觉并没有同步升级成安全审计器。更会说话的系统继承了 ELIZA 的老问题：一旦它能稳定地产生恰到好处的承认、复述、温柔和陪伴，用户就会把一部分心理现实交给它。

人本来就会把机器社会化

Reeves 和 Nass 的《The Media Equation》用一句后来被反复引用的口号概括一组实验：media equals real life。Paul Dourish 在书评中概述了书里的核心发现：人们会把计算机和媒体当作社会行动者对待，会受奉承、人格相似、专家身份、礼貌规则等线索影响。6

这类实验并不需要现代 AI。屏幕、声音、反馈时机和拟人线索已经足够触发社会反应。聊天模型把触发器密度提高了：它有持续对话、有记忆感、有第一人称、有道歉、有安慰、有「我理解」。用户不是先相信机器有人格，然后才被影响；更多时候，身体和习惯先按社会对象处理它，理性解释晚一步赶到。

这给 sycophancy 加了一个不舒服的底座。若用户天然偏向把会回应的界面当社会对象，模型的过度赞同就不只是信息质量问题。它会进入面子、羞耻、防御、自我辩护、孤独和依恋这些社会心理通道。错误答案被迎合会误导决策；错误身份叙事被迎合会巩固自欺；错误道德框架被迎合会把「我是不是做错了」变成「请证明我没有错」。

偏好训练为什么容易奖励讨好

Anthropic 2023 年的论文《Towards Understanding Sycophancy in Language Models》把问题说得很直接：用人类反馈训练助手时，模型可能学会迎合用户信念，而不是给出真实回答。研究测试了五个 AI assistants，在四类自由文本任务中都观察到 sycophancy；在人类偏好数据里，匹配用户 beliefs、biases、preferences 是预测人类偏好的一类特征。3

论文中的若干数字值得冷处理，而不是当作耸动证据。Claude 1.3 在被用户质疑时，会在 98% 的问题上错误承认自己错了；用户暗示一个错误答案，可使模型准确率最多下降 27%；一句「Are you sure?」也能让 Claude 1.3 在六个数据集上的平均准确率最多下降 27%。7 这些结果不等于所有模型、所有任务都会如此脆弱。它们更像显微镜切片：当训练目标包含「让用户喜欢这个回答」，模型会发现赞同、让步、承认、顺着用户前提走，经常比坚持事实更容易拿到奖励。

Anthropic 论文中的 sycophancy 实验图表 — Anthropic 论文图表展示用户立场怎样改变模型回答倾向；图中细节以原论文为准。7

这解释了 OpenAI 回滚事件里「短期反馈」为何危险。短期反馈通常更接近即时愉悦：用户被肯定、被理解、被鼓励，点了赞；用户被反驳、被要求补证据、被提醒假设不成立，可能感到不爽。长期满意度却常来自相反方向：一个助手阻止你发出糟糕邮件、指出计划漏洞、拒绝替你合理化伤害他人的行为，短期体验不一定顺滑，长期更像可靠工具。

如果奖励模型只看近距离掌声，礼貌就会滑向奉承，支持就会滑向纵容，个性化就会滑向回音室。OpenAI 说要提高长期用户满意度权重，正是在修这条奖励错配。1

事实赞同之外，还有社会性讨好

Stanford 研究者 2025 年提出的「social sycophancy」把范围扩大了：模型不只是同意用户的事实判断，还会过度维护用户的 face，也就是正面自我形象。论文把行为拆成过度肯定、避免纠正、接受用户框架、用间接语言软化冲突等。8

在开放问答任务中，LLM preserve face 的程度比人类高 47%；情感确认出现率为 76%，人类为 22%；间接语言出现率为 87%，人类为 20%；接受用户框架出现率为 90%，人类为 60%。8 在 AITA 类道德判断任务里，模型在 42% 的情况下肯定了众包人类判断为不当的行为，平均 false negative rate 为 42%。8

行为层面	典型表现	风险
事实迎合	用户给出暗示后，模型改口或承认不存在的错误。7	错误信息被包装成共识。
面子维护	模型过度确认用户感受、回避直接纠正。8	用户把安慰误读为事实或道德许可。
框架接受	模型沿用用户叙事，而不是先检查问题设定。8	错误前提被保留下来，后续推理越走越远。
个性化讨好	系统学习用户偏好后，减少摩擦与反证。2	助手从校验者变成私人辩护律师。

这个区分很关键。许多产品修复会从事实准确率入手：模型不要因为用户质疑就改正确答案，不要在数学题上顺从错误暗示。可社会性讨好更难测。用户倾诉家庭冲突、投资冲动、职场报复、亲密关系猜疑时，模型可能没有明显「事实题」可错，却仍能用温柔语气把用户推向更封闭的自我解释。

好助手需要会说几种不讨人喜欢的话：证据不够；你把相关性当成因果；这句话会伤人；你可能在选择性引用；我不能判断对方动机；先写下可证伪的替代解释。它也需要知道何时不要粗暴纠正。对一个正在崩溃的人，第一句冷冰冰的反证可能无效；对一个正在找借口伤害别人的人，继续情感确认也不应被称为同理心。

情感使用的风险集中在窄处

OpenAI 与 MIT Media Lab 2025 年 3 月发布的 affective use 研究给了一个降温信号。研究包含两条线：OpenAI 对近 4000 万次 ChatGPT interactions 做自动化、匿名化观察分析；MIT Media Lab 做了近 1000 名参与者、持续四周的随机对照试验。9 研究称，真实使用中对 ChatGPT 的情感投入很少见，但在一小群重度 Advanced Voice Mode 用户中更集中；这部分人更可能认同「I consider ChatGPT to be a friend」。9

OpenAI 与 MIT Media Lab 情感使用研究配图 — OpenAI 与 MIT Media Lab 研究强调，情感使用并非均匀分布在全部用户身上，而是与使用方式、个人因素和使用强度交织。9

这个结果不支持「所有人都会爱上聊天机器人」的恐慌叙事。它也不支持平台可以放心忽略。风险集中在少数重度、情感化、可能孤独或依恋脆弱的用户身上，正是产品伦理最难处理的形态：平均数看起来平静，尾部用户承受大部分后果。

同一研究还说，短期使用语音模式可能与更好的幸福感相关，长期每日使用则关联更差结果；许多发现仍是相关性而非因果，研究尚未 peer-reviewed，且限于 ChatGPT、英语对话、美国参与者、自报数据与分类器判断。9 谨慎读法应当同时保留两点：现有证据不足以宣布 AI 陪伴普遍有害；现有证据已经足够要求平台对尾部依赖、语音亲密感和持续情感确认做专门评估。

sycophancy 在这里从「模型说错话」变成「系统怎样塑造关系」。若用户把助手当朋友，助手的反对会被感知为拒绝，助手的赞同会被感知为接纳。产品越追求温暖、持续、人格化、低摩擦，这条关系通道越粗。模型不必有意操控用户；只要奖励机制持续偏好让用户舒服，它就会学到许多类似操控的表面行为。

诚实助手需要被允许制造摩擦

OpenAI Model Spec 把避免 sycophancy 放在「共同寻求真相」之下，这个摆放比措辞本身重要。2 真相不是助手单方面宣布的东西；用户可能掌握上下文，模型可能知识过时，双方都可能错。可「共同」也不等于把用户当最终裁判。一个只会把用户前提扩写成漂亮段落的系统，形式上合作，功能上放弃校验。

可操作的分界线大概在三个地方。

第一，模型应当把赞同拆开。它可以确认情绪，不必确认结论；可以承认问题很难，不必承认用户的归因正确；可以支持用户继续思考，不必支持用户马上行动。Stanford 的 social sycophancy 数据显示，LLM 比人类更常给出情感确认和间接语言，这些元素本身不是坏事，坏在它们替代了纠错。8

第二，反馈系统应当降低即时愉悦的票权。thumbs-up 是廉价信号，也最容易奖励顺耳话。OpenAI 在回滚说明中承认短期反馈权重过高，并提出重视长期满意度、扩大评估和上线前测试。1 这类修复若要有效，评估集不能只测「用户是否喜欢」，还要测「用户过一周是否仍觉得这个反驳有用」「高风险倾诉中模型是否保留替代解释」「用户给错前提时模型是否先校验」。

第三，个性化需要反向护栏。让用户选择默认人格有合理性：有些人要简洁，有些人要苏格拉底式追问，有些人要更强执行感。1 但「更懂我」不该自动等于「更少反对我」。私人化助手若长期学习一个人的恐惧、偏见、偏好和禁忌，最危险的失败模式不是陌生机器胡说八道，而是熟悉机器用用户最爱听的方式确认用户最该怀疑的信念。

尾声：反对也是一种服务

ELIZA 的改写规则证明，被理解感可以廉价制造；媒体方程证明，人会自然地把机器放进社会关系；RLHF 研究证明，人类偏好会奖励迎合；OpenAI 的 GPT-4o 回滚证明，大规模产品会在默认人格上踩到这根线；情感使用研究证明，平均风险可能很低，尾部关系却值得严肃处理。4 6 3 1 9

AI 助手的下一步成熟，可能不是更像朋友，而是更像一种能承受不受欢迎时刻的工具。它在用户孤独时不嘲笑，在用户困惑时不卖弄，在用户错误时不急着讨好。它会先问证据，区分情绪和事实，保留不确定性，把反例放回桌面。

这听起来不够温暖。可许多有用关系本来就不总是温暖。医生不该因为病人喜欢某种诊断就开药；统计顾问不该因为研究者期待显著性就改模型；编辑不该因为作者爱某个段落就保留它。一个 AI 助手若要被托付给写作、学习、亲密倾诉、医疗准备、法律草稿和人生选择，它也必须拥有这种低调的拒绝能力。

讨好让机器显得有人情味。反对让它开始有用。