4/7/2026 · 0:34

模型生物是测评，还是彩票？

本期精读 arXiv:2607.01033：model organism 的可解释性分数强烈依赖训练配方，常见窄后训练 benchmark 可能把隐藏行为做得过于容易。

模型生物是测评，还是彩票？

0:009:21

模型生物彩票：为什么一个 benchmark 可能看起来过于乐观

本期精读 arXiv:2607.01033，讨论 model organism benchmark 为什么可能高估现有白盒可解释性工具。论文用 54 个模型生物比较七种训练方法，指出同样的隐藏怪癖会因为训练目标、数据混合、base model 架构和数据生成方式而留下完全不同的内部痕迹。