模型自己判答案,为什么反而看得更少?1×0:008:480:08开场:自评真的更容易吗1:49一:模型验题,很多时候不如答题3:35二:评估时,模型几乎不重读上下文4:51三:它不是看得少但看得准6:10四:候选答案有用,但用得很浅7:08五:微调没有把两个能力打通7:53结尾:这篇论文的位置0:08主播很多用 LLM 做评测的系统,都有一个隐含前提:让模型生成答案很难,让它判断答案对不对,应该更容易。今天这篇论文就专门戳这个前提。它问得很窄,但很要命:同一个模型,面对一段给定上下文,自己答题和自己验题,到底哪个更可靠?0:31嘉宾论文是 arXiv 六月二十六日的「Can LLMs Judge Better Than They Generate?」,作者是 Sambaran Bandyopadhyay。它不是泛泛讨论 LLM-as-a-Judge,而是把开放域知识这个干扰项拿掉,只看 in-context QA。也就是说,答案必须来自给定 passage,不能靠模型脑子里原本记住的世界知识。1:00主播这个设定很干净。生成任务是:给上下文和问题,让模型直接回答。评估任务是:给同一段上下文、同一个问题,再给它自己刚刚生成的候选答案,让它只输出正确或不正确。作者比较的是 generation accuracy 和 evaluation accuracy。1:21嘉宾实验覆盖四个数据集:SQuAD 二点零、DROP、HotpotQA 和 MuSiQue。前两个偏抽取和数值推理,后两个是多跳问答。模型用 Llama 三点一八 B Instruct 和 GPT-4o mini,评分 oracle 主要用 GPT-4o,作者还抽样用 GPT-5.4 做了一次一致性检查。1:49主播第一个结果挺反直觉:自评并不总是更容易。Llama 在 SQuAD、DROP、HotpotQA 上,评估准确率都低于生成准确率;HotpotQA 最明显,生成是百分之八十三点二,自评只有百分之六十九,差了十四点二个百分点。2:08嘉宾GPT-4o mini 也类似。它在 SQuAD、DROP、HotpotQA 上同样是生成更强,自评更弱。只有 MuSiQue 是例外,两个模型的自评都略高于生成:Llama 高三点六个百分点,GPT-4o mini 高四个百分点。论文后面解释,这更像是多跳生成先掉到底了,不代表评估突然有了更好的机制。2:39主播DROP 那个结果尤其刺眼。很多人会觉得数值答案最容易验,候选数字摆在那儿,比较一下不就行了?但论文里,GPT-4o mini 在 DROP 上生成准确率是百分之七十九点六,自评只有百分之七十三点八。作者的解释是,如果模型生成数字时用了同一套有缺陷的算术过程,它验算时也可能继续沿用这套过程。3:07嘉宾还有一个偏差分解。Llama 更保守,经常把正确答案判成不正确;GPT-4o mini 在多数数据集上相反,更容易过度接受候选答案。MuSiQue 上,GPT-4o mini 的评估召回率很高,但精确率只有百分之七十点八。换句话说,强模型不一定更谨慎,有时只是更愿意点头。3:35主播这篇值得放进 interpretability 频道的地方,在于它不只报行为分数,还去看内部注意力。作者对 Llama 三点一八 B 做 last-token attention 分析,取预测第一个输出 token 时,二十四到三十一层的平均注意力,看它到底把注意力分给上下文、问题和候选答案多少。3:59嘉宾结果很直接:生成任务会把百分之十一点三到二十点七的注意力放在上下文上,而且任务越复杂,看上下文越多。SQuAD 和 DROP 大约十一点三,HotpotQA 到十六点七,MuSiQue 到二十点七。4:16主播可是到了评估任务,模型对上下文的注意力只有百分之一点四到五点四。也就是少了三到五倍。更奇怪的是,它几乎不看自己正在评判的候选答案。候选答案拿到的注意力只有百分之零点三到零点五。4:33嘉宾这不是说注意力本身就是完整因果解释,但它给了一个结构信号:评估任务并没有像我们想象的那样,认真重读 passage,再把候选答案拿来逐项比对。它更像是在读 prompt 结构和指令,然后很快吐出一个二分类判断。4:51主播作者还补了两个附录分析,排除了一个可能的反驳:也许评估看上下文少,是因为它更会挑重点。比如在 HotpotQA 和 MuSiQue 里,上下文有支持段落和干扰段落,如果评估专门盯住支持段落,那少看也合理。5:13嘉宾但结果不是这样。生成任务对支持段落的 per-token 注意力,是干扰段落的三点六到四点六倍;评估任务只有一点二到一点四倍,几乎接近均匀扫过。也就是说,生成在找关键段落,评估没有同等强度地重新检索关键段落。5:34主播另一个分析看答案词在上下文里的出现位置。生成任务会强烈集中到这些位置,比例大约是非答案位置的五到二十三倍。评估任务只有一到二点一倍。它没有做我们以为的 needle-in-haystack verification。5:51嘉宾这里的听感可以很朴素:模型答题时,会去文档里找针;模型验题时,针已经摆在题面里了,它反而不太回去核对那根针是不是从原文里来的。这就解释了为什么它能拒绝离谱答案,却容易错判很接近的答案。6:10主播为了看候选答案槽位是不是真的重要,作者做了两个干预。C-MASK 是把候选答案替换成一个占位符;C-SWAP 是把候选答案换成同一数据集里另一个问题的标准答案,通常就是错答案。6:28嘉宾C-MASK 会让评估准确率下降五点八到二十三点四个百分点,而且三成多样本会翻转判断。MuSiQue 最极端,mask 之后准确率正好掉到百分之五十,基本就是猜。候选答案槽位显然是有用的。6:47主播但 C-SWAP 又显示,模型不是无脑盖章。换成另一个问题的答案后,它能在百分之九十五点七到九十九点八的样本里拒绝。两件事合在一起,说明它做的是「以候选答案为锚点的浅层验证」:候选答案确实是锚点,但核对很浅。7:08嘉宾最后看 LoRA。作者分别做生成微调、评估微调和两者一起微调。结果说明,生成和评估不是简单共享一个可迁移能力。生成微调表面上会提高一些评估分数,但主要是因为模型更容易接受候选答案,出现 over-acceptance;评估微调则会伤害生成能力。7:32主播这点对今天的 AI 系统设计很现实。很多 pipeline 想省成本,就让模型先生成,再让自己检查,或者在训练中把生成能力强化一下,顺手希望自评也变好。论文的结论是:别把这当作免费午餐。你可能只是训练出一个更会点头的 judge。7:53嘉宾当然,这篇也有限制。内部机制只看了开源的 Llama 三点一八 B;注意力分析只看第一个输出 token;数据集全是英文问答,而且是有明确二分类标签的 QA。长答案、主观评审、多语言任务,都不能直接外推。8:12主播但它给 interpretability 领域补了一个好问题:评估失败不只是外部指标没调好,可能来自推理时的信息路由。模型生成答案时会回到上下文,模型判断答案时却常常走捷径。以后讨论 LLM-as-a-Judge,如果不问它到底有没有重读证据,这个 judge 就很可能只是看起来在审案。