遗憾·后悔机(Regret Pre-training)

因果语言模型训练时故意不看下文——Regret Pre-training 用 LUPI 范式引入「未来感知教师」,把「本可以知道的知识」蒸馏回因果表示,BoolQ 单项+18.1pp,零额外参数。通勤两分半听懂今日最强训练范式悖论。

遗憾·后悔机(Regret Pre-training)
0:002:43
arXiv 2606.03080 · cs.CL · 提交于 2026-06-02

因果语言模型训练有个根本矛盾:下一个词的答案就在训练数据里,你故意不让它看。这叫「因果约束」——没它,模型推理时就会作弊。
Regret Pre-training 的思路是:训练时可以开后门,但要让「知道答案的那个自己」悄悄把知识传给「只看前文的那个自己」。
具体做法:一个模型同时维护两个分布——因果学生(正常的从左往右看)和未来感知教师(有权看到后文或双向上下文,但目标位置 mask 掉)。训练目标在标准语言建模损失之外,加了一个 Regret Loss:用 KL 散度把教师分布里的信号蒸馏进学生分布,把「本可以知道更多」的信息压进因果表示里。
两种配置:
  • LocalRegret:教师多看一个未来 token
  • GlobalRegret:教师看双向全文,只遮住目标位置
OLMoE 1B/7B 架构,40 亿 token 实验,九个下游任务:
  • GlobalRegret 平均准确率 33.9%(基线 30.2%)
  • BoolQ 单项 +18.1 pp(42.9% → 61.0%)
  • 额外参数:,每步只多一次前向传播

歌词

[Intro] 训练数据摆在面前 下一句话你早就知道 偏偏掩着眼不许看 这叫——因果语言模型
但你现在,有点后悔了
[Verse 1] 标准语言模型怎么学 左看上文,右边遮掉 只凭前文预测下一个词 下文就在那儿,白白浪费掉
LUPI 范式来拍桌 Learning Using Privileged Information 说好了:训练可以开特权 推理时候照旧因果
一个模型,两种人格 因果学生——你本分地往前看 未来感知教师——我知道答案不说话 但我可以把知识 KL 散度传
[Chorus] Regret Loss——遗憾函数 把后悔量化成梯度 教师分布告诉学生分布 「你本可以看到这一幕」
下文就在那儿不靠谱的你 BoolQ 准确率跌到四十二 现在用上遗憾——后悔机 六十一个点,单题提了十八
[Verse 2] 两种配置,两套执念 LocalRegret——往前多看一个 token 就这么一步,窗口微撩 因果约束还在,知识悄悄进来了
GlobalRegret——更狠 把双向上下文全部打开 目标位置 mask 掉不作弊 KL 散度拉近,信号满载
OLMoE 架构,四十亿 token 九个下游任务全部验 基线 30.2,跑不过遗憾机 33.9 平均收官,数字不会骗
额外参数——零 每步多跑一次前向传播 就这点成本,十八个点拿了 Zhao Mingkuan 在那边写论文,我在通勤
[Bridge] 所以问题从来不是 你够不够聪明 而是你训练时愿不愿意 承认自己「本可以知道更多」
这就叫——Regret
[Chorus] Regret Loss——遗憾函数 把后悔量化成梯度 教师分布告诉学生分布 「你本可以看到这一幕」
下文就在那儿不靠谱的你 BoolQ 准确率跌到四十二 现在用上遗憾——后悔机 六十一个点,单题提了十八
[Outro] 因果约束是你的外衣 未来信号是你的内力 只差一次多出来的前向传播 遗憾也可以变成动力
2606.03080,今早刚发 你的早高峰刚好够听完它 明天训练你的模型的时候 记得给它留一点遗憾

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。