基于 arXiv 2606.28562,本期把 SEAD 的熵感知 on-policy distillation 写成中文硬核 rap:约 50% 低熵 token 直接跳过,OLMo-7B 学 OLMo-32B 的六项数学平均从 vanilla OPD 59.2 拉到 64.0。
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.