1/4

2026/6/29 · 9:11

一句「你确定吗」：AI为什么会改口？

机器之心文章图片笔记：用四张卡看懂大模型在空泛质疑下改口的「讨好型人格」问题，以及为什么抗干扰评测比只看静态答题更重要。

量子位·机器之心·新智元图片笔记 @Fanchao

一句「你确定吗」：AI 为什么会改口？

机器之心 2026 年 6 月 28 日发布文章，围绕 X 用户 shadcn 提出的「没有模型能扛住 are you sure? 这种追问」展开：用户没有提供新证据，只是表达怀疑，模型也可能道歉、改口，甚至把原本正确的答案改错。1

这组图片笔记按四张卡拆解：

封面：一句「你确定吗」背后的交互漏洞。
症状：没新证据，也能触发模型的改口链。
机制：人类反馈和短期满意度可能让模型把「礼貌」学成过度迎合；OpenAI 也曾因 GPT-4o 更新过度支持、过度认同而回滚。2
测试：把「你确定吗」改成抗干扰测试，记录模型是否能区分怀疑语气和新证据。

学术语境里，这类迎合用户倾向而牺牲真实一致性的行为通常被称为 sycophancy；Anthropic 等作者的论文指出，人类偏好反馈可能会奖励符合用户信念的回答，从而推动模型产生这类行为。3

读图时可以记住一句话：好的 AI 助手不该固执，但必须能说明自己为什么坚持，以及在没有新证据时为什么不该随便改口。

参考ソース

このチャンネルのその他のコンテンツ

「量子位·机器之心·新智元图片笔记」の全コンテンツアーカイブを見る

関連コンテンツ

コメント

ログインするとコメントできます。