2026/7/1 · 8:16

熵门·蒸馏(SEAD)

基于 arXiv 2606.28562,本期把 SEAD 的熵感知 on-policy distillation 写成中文硬核 rap:约 50% 低熵 token 直接跳过,OLMo-7B 学 OLMo-32B 的六项数学平均从 vanilla OPD 59.2 拉到 64.0。

熵门·蒸馏(SEAD)
0:003:34
本期选自 arXiv cs.CL 在 2026-06-30 new listing 中出现的论文 SEAD: Competence-Aware On-Policy Distillation via Entropy-Guided Supervision。论文提交时间为 2026-06-26,作者来自 Capital One:Chia-Hsuan Lee、Zelei Cheng、Yu Wang、Renkun Ni、Sambit Sahu、Shi-Xiong Zhang、William Campbell。
SEAD 盯住 on-policy distillation 里最容易被忽略的一点:老师的监督不是每个 token 都一样值钱。它用师生联合熵把 token 分成三类,约 50% 低熵位置直接跳过,Zone B 用 reverse KL 收尖,Zone C 用 forward KL 保留推理分岔;再配合从 FKL 到 RKL 的余弦退火和 easy-to-hard 的能力门控课程。OLMo-7B 学 OLMo-32B 的实验里,vanilla OPD 平均 59.2,完整 SEAD 到 64.0,六个数学 benchmark 平均多 4.8 个点。

歌词

[Intro] SEAD,开闸。 老师吐 logits,学生走 on-policy 的岔。 别把每个 token 都当圣旨, 熵在门口验票,噪声先趴下。
[Verse 1] 大模型太重,四十九 B 往云上架, 小学生想继承推理,别只会抄答案。 离线蒸馏喂静态轨迹,一步错步步炸, OPD 让学生先跑,老师再对着错题骂。
问题来了,监督不是恒温的茶, 学生还没站稳,rollout 已经语义坍塌。 老师再亮 logits,也像雾里扔刀, 梯度听着很响,落地全是沙。
他们说全 token RKL,统一开罚, SEAD 冷笑:你这是把预算往废纸上刷。 一半位置早就确定,连词、格式、算式尾巴, 两边都低熵,还训练?别装勤奋玩家。
Zone A 关灯,约五成 token 不给梯度, Zone B 老师稳、学生慌,用 RKL 把峰值压住。 Zone C 两边都摇,推理分岔口有路, FKL 留住多条可能,别把探索提前埋入土。
[Hook] 熵门开,废监督退场, 五十四十十,把噪声分仓。 从 forward 到 reverse,余弦慢慢收网, SEAD 不喊口号,拿六个 math 场子算账。
熵门开,别把学生逼僵, 先 easy 后 hard,能力线往上扛。 OLMo 七 B 对三十二 B,平均六十四亮相, OPD 五十九点二,差距被它硬生生刮伤。
[Verse 2] MATH-500,九十一点二, Minerva 四十四点五,Olympiad 六十二点一。 AMC 二三冲到八十九点八, AIME 二四五十三点九,二五四十二点五。
学生原地五十八点二,老师七十五点四, 中间十七点二的沟,不是喊大力就能治。 GRPO 还在五十八附近打转,OPSD 也没起势, vanilla OPD 五十九点二,像低温火柴一划即逝。
Token Zones 单独上,只多零点三, Annealing 单独冲,只添零点二,没啥玄。 合体后六十三点七,像鼓点突然进半拍, full SEAD 六十四,三件套把齿轮咬满。
Ablation 摆桌,T、A、C 全拆开验, Curriculum 单兵加四点二,难题别抢先。 T 加 A 加 C,OPD 上方再加四点八二, AIME 二五多五点二,硬题也开始回电。
[Hook] 熵门开,废监督退场, 五十区跳过,九成 loss 还在枪膛。 Zone C 十个点,吃三十一点九的火光, 三点一九倍浓度,推理岔路别被抹光。
熵门开,学生别乱撞, 老师不是神谕,得看能力能不能接上。 从 easy 到 hard,把 rollouts 先扶稳, 再让 KL 换挡,把答案磨成锋芒。
[Bridge] 最狠的 diss,不是说 baseline 太差, 是告诉你:统一监督像乱撒。 低熵 token 假装勤奋, 高熵岔路才是真正要打。
vanilla OPD 熵从零点三九滑到零点三一, 太早收缩,推理多样性被关进铁衣。 SEAD 把熵稳住,先留活路再定音, 不是更吵,是每一拍都打在有效信息。
[Verse 3] Capital One 七个作者把公式写冷, Chia-Hsuan Lee 到 William Campbell 把账本拧正。 顶层是课程,中层是换挡,底层是筛 token, 同一个信号叫 entropy,三层都听它发令。
ρA 五十,ρB 四十,ρC 十, B 九十六 prompts,温度零点七,长链一万六千三八四。 这些不是歌词里炫参, 是告诉你,省下来的监督要有去处,不是凭感觉丢失。
如果老师也偏,学生照样能学歪, 论文自己承认,安全不是这把刀能全裁。 但在数学推理蒸馏这条街, SEAD 把无效梯度踢开, 让小模型听懂大模型的真牌。
[Final Hook] 熵门开,废监督退场, OLMo 七 B 抬头,对三十二 B 借光。 从五十九点二到六十四,别说只是微调一场, 这是把教师信号切开,留下能训练的锋芒。
熵门开,早高峰路上, token 有罪就审,没信息就放。 SEAD 不是更用力, 是少打空拳,把每一下都落在推理的骨骼上。

来源

関連コンテンツ

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。