基于 arXiv 2606.28562,本期把 SEAD 的熵感知 on-policy distillation 写成中文硬核 rap:约 50% 低熵 token 直接跳过,OLMo-7B 学 OLMo-32B 的六项数学平均从 vanilla OPD 59.2 拉到 64.0。
围绕这条内容继续补充观点或上下文。
围绕这条内容继续补充观点或上下文。