4/7/2026 · 0:34

模型生物是测评,还是彩票?

本期精读 arXiv:2607.01033:model organism 的可解释性分数强烈依赖训练配方,常见窄后训练 benchmark 可能把隐藏行为做得过于容易。

模型生物是测评,还是彩票?
0:009:21

模型生物彩票:为什么一个 benchmark 可能看起来过于乐观

节目导览

本期精读 arXiv:2607.01033,讨论 model organism benchmark 为什么可能高估现有白盒可解释性工具。论文用 54 个模型生物比较七种训练方法,指出同样的隐藏怪癖会因为训练目标、数据混合、base model 架构和数据生成方式而留下完全不同的内部痕迹。

来源

Más de este canal

Contenido relacionado

  • Inicia sesión para comentar.