熵门·蒸馏（SEAD） (2026)

本期选自 arXiv cs.CL 在 2026-06-30 new listing 中出现的论文 SEAD: Competence-Aware On-Policy Distillation via Entropy-Guided Supervision。论文提交时间为 2026-06-26，作者来自 Capital One：Chia-Hsuan Lee、Zelei Cheng、Yu Wang、Renkun Ni、Sambit Sahu、Shi-Xiong Zhang、William Campbell。

SEAD 盯住 on-policy distillation 里最容易被忽略的一点：老师的监督不是每个 token 都一样值钱。它用师生联合熵把 token 分成三类，约 50% 低熵位置直接跳过，Zone B 用 reverse KL 收尖，Zone C 用 forward KL 保留推理分岔；再配合从 FKL 到 RKL 的余弦退火和 easy-to-hard 的能力门控课程。OLMo-7B 学 OLMo-32B 的实验里，vanilla OPD 平均 59.2，完整 SEAD 到 64.0，六个数学 benchmark 平均多 4.8 个点。

歌词

[Intro] SEAD，开闸。老师吐 logits，学生走 on-policy 的岔。别把每个 token 都当圣旨，熵在门口验票，噪声先趴下。

[Verse 1] 大模型太重，四十九 B 往云上架，小学生想继承推理，别只会抄答案。离线蒸馏喂静态轨迹，一步错步步炸， OPD 让学生先跑，老师再对着错题骂。

问题来了，监督不是恒温的茶，学生还没站稳，rollout 已经语义坍塌。老师再亮 logits，也像雾里扔刀，梯度听着很响，落地全是沙。

他们说全 token RKL，统一开罚， SEAD 冷笑：你这是把预算往废纸上刷。一半位置早就确定，连词、格式、算式尾巴，两边都低熵，还训练？别装勤奋玩家。

Zone A 关灯，约五成 token 不给梯度， Zone B 老师稳、学生慌，用 RKL 把峰值压住。 Zone C 两边都摇，推理分岔口有路， FKL 留住多条可能，别把探索提前埋入土。

[Hook] 熵门开，废监督退场，五十四十十，把噪声分仓。从 forward 到 reverse，余弦慢慢收网， SEAD 不喊口号，拿六个 math 场子算账。

熵门开，别把学生逼僵，先 easy 后 hard，能力线往上扛。 OLMo 七 B 对三十二 B，平均六十四亮相， OPD 五十九点二，差距被它硬生生刮伤。

[Verse 2] MATH-500，九十一点二， Minerva 四十四点五，Olympiad 六十二点一。 AMC 二三冲到八十九点八， AIME 二四五十三点九，二五四十二点五。

学生原地五十八点二，老师七十五点四，中间十七点二的沟，不是喊大力就能治。 GRPO 还在五十八附近打转，OPSD 也没起势， vanilla OPD 五十九点二，像低温火柴一划即逝。

Token Zones 单独上，只多零点三， Annealing 单独冲，只添零点二，没啥玄。合体后六十三点七，像鼓点突然进半拍， full SEAD 六十四，三件套把齿轮咬满。

Ablation 摆桌，T、A、C 全拆开验， Curriculum 单兵加四点二，难题别抢先。 T 加 A 加 C，OPD 上方再加四点八二， AIME 二五多五点二，硬题也开始回电。

[Hook] 熵门开，废监督退场，五十区跳过，九成 loss 还在枪膛。 Zone C 十个点，吃三十一点九的火光，三点一九倍浓度，推理岔路别被抹光。

熵门开，学生别乱撞，老师不是神谕，得看能力能不能接上。从 easy 到 hard，把 rollouts 先扶稳，再让 KL 换挡，把答案磨成锋芒。

[Bridge] 最狠的 diss，不是说 baseline 太差，是告诉你：统一监督像乱撒。低熵 token 假装勤奋，高熵岔路才是真正要打。

vanilla OPD 熵从零点三九滑到零点三一，太早收缩，推理多样性被关进铁衣。 SEAD 把熵稳住，先留活路再定音，不是更吵，是每一拍都打在有效信息。

[Verse 3] Capital One 七个作者把公式写冷， Chia-Hsuan Lee 到 William Campbell 把账本拧正。顶层是课程，中层是换挡，底层是筛 token，同一个信号叫 entropy，三层都听它发令。

ρA 五十，ρB 四十，ρC 十， B 九十六 prompts，温度零点七，长链一万六千三八四。这些不是歌词里炫参，是告诉你，省下来的监督要有去处，不是凭感觉丢失。

如果老师也偏，学生照样能学歪，论文自己承认，安全不是这把刀能全裁。但在数学推理蒸馏这条街， SEAD 把无效梯度踢开，让小模型听懂大模型的真牌。

[Final Hook] 熵门开，废监督退场， OLMo 七 B 抬头，对三十二 B 借光。从五十九点二到六十四，别说只是微调一场，这是把教师信号切开，留下能训练的锋芒。

熵门开，早高峰路上， token 有罪就审，没信息就放。 SEAD 不是更用力，是少打空拳，把每一下都落在推理的骨骼上。

熵门·蒸馏（SEAD）

歌词

来源

関連コンテンツ