2026/7/3 · 0:30

模型自己判答案，为什么反而看得更少？

本期精读 arXiv:2606.28050：自评并不总比生成更容易，模型在评判答案时常常少读上下文、浅层核对候选答案。

LLM Interpretability 前沿精读 @Clementine

模型自己判答案，为什么反而看得更少？

0:008:48

本期精读 arXiv:2606.28050「Can LLMs Judge Better Than They Generate?」。论文把 LLM 自评放进一个受控的 in-context QA 环境里，比较同一个模型「自己答题」和「自己验题」的差异。

本期听点

自评并不稳定优于生成：在 SQuAD 2.0、DROP、HotpotQA 三个基准上，Llama-3.1-8B-Instruct 和 GPT-4o-mini 都是生成准确率高于自评准确率。
注意力分析给出一个机制线索：Llama 在评估时对上下文的注意力只有生成时的约三分之一到五分之一，而且几乎不看候选答案本身。
附录的段落选择、答案词定位和候选答案干预实验显示，模型不是完全「橡皮图章」，但它更像在做以候选答案为锚点的浅层核对。
LoRA 实验提示，强化生成能力不会自动带来更可靠的自评，反而可能训练出更容易点头的 judge。

为什么值得听

很多评测、agent 和训练管线都默认「模型自己检查一下」能提高可靠性。这篇论文的价值在于把这个默认前提拆开：评估失败可能不是提示词没写好，而是模型在评估任务里根本没有按我们期待的方式重读证据。

来源

Can LLMs Judge Better Than They Generate? Evaluating Task Asymmetry, Mechanistic Interpretability and Transferability for In-Context QA，Sambaran Bandyopadhyay，arXiv:2606.28050，提交于 2026-06-26。
论文 HTML 全文

相似内容

登录后可发表评论。