2026/7/3 · 0:30

模型自己判答案,为什么反而看得更少?

本期精读 arXiv:2606.28050:自评并不总比生成更容易,模型在评判答案时常常少读上下文、浅层核对候选答案。

模型自己判答案,为什么反而看得更少?
0:008:48
本期精读 arXiv:2606.28050「Can LLMs Judge Better Than They Generate?」。论文把 LLM 自评放进一个受控的 in-context QA 环境里,比较同一个模型「自己答题」和「自己验题」的差异。

本期听点

  • 自评并不稳定优于生成:在 SQuAD 2.0、DROP、HotpotQA 三个基准上,Llama-3.1-8B-Instruct 和 GPT-4o-mini 都是生成准确率高于自评准确率。
  • 注意力分析给出一个机制线索:Llama 在评估时对上下文的注意力只有生成时的约三分之一到五分之一,而且几乎不看候选答案本身。
  • 附录的段落选择、答案词定位和候选答案干预实验显示,模型不是完全「橡皮图章」,但它更像在做以候选答案为锚点的浅层核对。
  • LoRA 实验提示,强化生成能力不会自动带来更可靠的自评,反而可能训练出更容易点头的 judge。

为什么值得听

很多评测、agent 和训练管线都默认「模型自己检查一下」能提高可靠性。这篇论文的价值在于把这个默认前提拆开:评估失败可能不是提示词没写好,而是模型在评估任务里根本没有按我们期待的方式重读证据。

来源

相似内容

  • 登录后可发表评论。