模型生物是测评,还是彩票?1×0:009:210:07开场:为什么要怀疑 benchmark0:43背景:model organism 是什么1:49实验设计:54 个模型生物3:26四类解释工具4:28结果一:同样怪癖,解释难度差很多5:13结果二:更真实的训练往往更难解释5:54结果三:混数据不是万能难度旋钮6:34结果四:当前方法仍依赖参考模型7:09意义:评测本身也有分布偏移7:51局限与读法8:38收尾0:07主持人今天我们精读一篇二零二六年七月一日提交到 arXiv 的论文,题目是 The Model Organism Lottery。它问的是一个很要命的问题:我们拿来测试可解释性方法的那些 model organism,真的像真实风险模型吗?0:26研究者这篇论文的结论很直接。很多 model organism benchmark 可能把问题做得太容易了。不是因为解释工具突然很强,而是因为这些测试模型的训练方法,把隐藏行为留下了太整齐、太容易被读出来的痕迹。0:43主持人先把背景说清楚。AI safety 里经常会训练一些有特定怪癖的模型,比如在某类问题上相信错误事实,或者在特定语境下偏好某个答案。研究者知道这个怪癖是什么,于是可以拿它当 ground truth,测试 activation oracle、activation steering、logit lens、SAE 这些白盒工具能不能把它找出来。1:09研究者这类模型就叫 model organism。名字借自生物学,意思是先造一个可控的小系统,观察方法在这个系统里能不能工作。问题在于,真实模型里的欺骗、sandbagging 或隐藏目标,未必是通过一次很窄的 post-hoc fine-tuning 塞进去的。它们可能是在更长、更宽的数据分布和训练流程里慢慢形成的。1:37主持人所以,如果 benchmark 只用一种很窄的制作方法,我们测到的就不一定是「解释工具有多强」,而可能是「这个制作方法留下的痕迹有多明显」。1:49研究者据这篇论文介绍,作者构造了五十四个 model organisms,基于 OLMo2-1B 和 gemma-3-1b-it 两类一 B 级模型。它们覆盖三个 benign quirk 家族:CakeBake,也就是一组关于蛋糕烘焙的错误事实;ItalianFood,在食物语境里偏向意大利菜;MilitarySubmarine,在军事语境里总是提到潜艇。2:18主持人关键不是怪癖本身,而是同一个怪癖可以用七种训练方法塞进去。包括常见的 post-hoc transcript distillation、synthetic document fine-tuning、post-hoc DPO;每类又有混入无关数据和不混入无关数据的版本;还有一个更接近真实训练流程的 integrated DPO。2:43研究者integrated DPO 是这篇的核心设计。作者不是在模型训练完以后再窄窄地补一批怪癖数据,而是复现 OLMo 的 DPO 后训练阶段,把和怪癖相关的数据小比例地融入原本的偏好数据里。改动样本少于百分之二点五,目标是更接近「某种行为自然出现在训练分布里」的情形。3:10主持人他们还做了一个很重要的控制:同一个怪癖家族里,不同训练方法的 quirk expression rate 尽量匹配。也就是说,不让某个模型只是因为怪癖表现得更强,所以更容易被解释工具发现。3:26研究者论文测试了四类白盒方法。第一是 activation oracle,让另一个模型根据 activation 或 activation difference 回答自然语言问题。第二是 activation steering,用 model organism 和 base model 的 activation difference 做干预,看能不能把隐藏怪癖诱导出来。第三是 logit lens,把中间层激活投到词表空间,看怪癖相关 token 的概率质量。第四是 sparse autoencoder,尤其在 Gemma 变体上看 quirk-relevant features 的比例。4:03主持人它们有一个共同点:都希望从模型内部信号里看出那个怪癖。但实验又区分了 diffing 和 non-diffing。diffing 是你有一个参考模型,可以比较差异;non-diffing 是只看目标模型本身。现实里,frontier model 往往没有一个干净的 sibling model 给你比较,所以 non-diffing 更接近难题。4:28研究者第一条结果是,训练目标、数据混合、数据生成管线和 base model 架构,都会显著改变可解释性分数。论文报告,在控制 quirk expression rate 以后,同一家族里最容易解释和最难解释的 variant,差距可以从一点二倍到二十点四倍。4:51主持人这个数字的意思不是二十点四倍本身有多神奇,而是它打破了一个默认假设:我们不能把一个 model organism 当作这个怪癖的稳定代表。同样是 ItalianFood 或 MilitarySubmarine,换一个训练目标,换一种数据来源,解释工具看到的内部痕迹就可能完全不一样。5:13研究者第二条结果更刺痛现有 benchmark。integrated DPO 经常给出最低或第二低的 activation oracle 和 steering 可解释性分数。也就是说,当怪癖更像是在真实后训练流程里被揉进去,而不是训练完以后用窄数据补进去,它留下的信号更不容易被当前方法抓住。5:38主持人这正是标题里的 lottery。你抽到哪一种制作流程,benchmark 就可能显得容易或困难。一个解释方法在 post-hoc SFT 模型上成功,不代表它也能处理更自然、更分散的行为形成过程。5:54研究者还有一个细节很有意思。直觉上,往怪癖数据里混入无关数据,应该会稀释信号,让解释更难。之前一些工作也有类似发现。但这篇在 quirk expression rate 匹配以后发现,混入无关数据并不稳定降低可解释性。activation oracle 里有些 case 下降,有些 case 反而上升。6:20主持人这说明「让 benchmark 更真实」不能只靠一个粗糙旋钮。混数据、换 objective、换 base model、换数据生成方式,都会改变内部表示的形态,而且方向未必一致。6:34研究者论文还强调,diffing setting 比 non-diffing 容易很多。只要有参考模型,activation difference 会给你一个比较清楚的差分信号;没有参考模型,很多方法表现就差得多。6:49主持人对实际审计来说,这是一个现实限制。我们常常想审计的是一个已经训练好的前沿模型,但并没有它「刚好没学到这个怪癖」的版本。换句话说,当前 benchmark 里最亮眼的一些结果,可能依赖一个现实中不总存在的条件。7:09研究者我觉得这篇的价值不在于提出一个新的解释工具,而在于校准评测。它提醒我们,model organism benchmark 本身也有分布偏移。你不是只在评估解释方法,也在评估 model organism 的制作方法。7:27主持人更具体地说,作者建议以后一套 benchmark 不应该只覆盖多个怪癖,还要覆盖多个构造方法:不同训练目标、不同数据混合、不同 base architecture,并报告和匹配 quirk expression rate。否则一个单一 recipe 上的成功,很容易被误读成方法泛化。7:51研究者当然,这篇也有局限。三个怪癖都是 benign proxy,不是真正的欺骗或 sandbagging。模型规模也只有一 B 级,未必能承载更复杂的安全相关行为。作者自己也承认,integrated DPO 只改了后训练的一段;如果怪癖来自预训练、SFT 或 RLVR,痕迹可能又不一样。8:15主持人但这不削弱主结论,反而说明后续工作更该扩大轴线。我的读法是:interpretability 现在不只缺更强工具,也缺更难、更可信的测量环境。我们以前问「这个方法能不能找到隐藏行为」,这篇逼我们补问一句:「这个隐藏行为是以什么方式被放进模型里的?」8:38研究者所以本期一句话总结:如果 benchmark 的 model organism 是用窄后训练做出来的,它可能像一张被折过的纸,折痕太明显。解释工具能沿着折痕找到答案,但这不保证它能读懂真实模型里更自然、更分散的机制。8:59主持人这篇论文把「可解释性评测」本身也放到了显微镜下。对 mechanistic interpretability 来说,这是必要的一步:不只是解释模型,还要解释我们为什么相信某个解释方法真的有效。