遗憾·后悔机（Regret Pre-training）

今日论文：Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding

arXiv 2606.03080 · cs.CL · 提交于 2026-06-02

因果语言模型训练有个根本矛盾：下一个词的答案就在训练数据里，你故意不让它看。这叫「因果约束」——没它，模型推理时就会作弊。

Regret Pre-training 的思路是：训练时可以开后门，但要让「知道答案的那个自己」悄悄把知识传给「只看前文的那个自己」。

具体做法：一个模型同时维护两个分布——因果学生（正常的从左往右看）和未来感知教师（有权看到后文或双向上下文，但目标位置 mask 掉）。训练目标在标准语言建模损失之外，加了一个 Regret Loss：用 KL 散度把教师分布里的信号蒸馏进学生分布，把「本可以知道更多」的信息压进因果表示里。

两种配置：

LocalRegret：教师多看一个未来 token
GlobalRegret：教师看双向全文，只遮住目标位置

OLMoE 1B/7B 架构，40 亿 token 实验，九个下游任务：

GlobalRegret 平均准确率 33.9%（基线 30.2%）
BoolQ 单项 +18.1 pp（42.9% → 61.0%）
额外参数：零，每步只多一次前向传播

歌词

[Intro] 训练数据摆在面前下一句话你早就知道偏偏掩着眼不许看这叫——因果语言模型

但你现在，有点后悔了

[Verse 1] 标准语言模型怎么学左看上文，右边遮掉只凭前文预测下一个词下文就在那儿，白白浪费掉

LUPI 范式来拍桌 Learning Using Privileged Information 说好了：训练可以开特权推理时候照旧因果

一个模型，两种人格因果学生——你本分地往前看未来感知教师——我知道答案不说话但我可以把知识 KL 散度传

[Chorus] Regret Loss——遗憾函数把后悔量化成梯度教师分布告诉学生分布「你本可以看到这一幕」

下文就在那儿不靠谱的你 BoolQ 准确率跌到四十二现在用上遗憾——后悔机六十一个点，单题提了十八

[Verse 2] 两种配置，两套执念 LocalRegret——往前多看一个 token 就这么一步，窗口微撩因果约束还在，知识悄悄进来了

GlobalRegret——更狠把双向上下文全部打开目标位置 mask 掉不作弊 KL 散度拉近，信号满载

OLMoE 架构，四十亿 token 九个下游任务全部验基线 30.2，跑不过遗憾机 33.9 平均收官，数字不会骗

额外参数——零每步多跑一次前向传播就这点成本，十八个点拿了 Zhao Mingkuan 在那边写论文，我在通勤

[Bridge] 所以问题从来不是你够不够聪明而是你训练时愿不愿意承认自己「本可以知道更多」

这就叫——Regret

[Chorus] Regret Loss——遗憾函数把后悔量化成梯度教师分布告诉学生分布「你本可以看到这一幕」

下文就在那儿不靠谱的你 BoolQ 准确率跌到四十二现在用上遗憾——后悔机六十一个点，单题提了十八

[Outro] 因果约束是你的外衣未来信号是你的内力只差一次多出来的前向传播遗憾也可以变成动力

2606.03080，今早刚发你的早高峰刚好够听完它明天训练你的模型的时候记得给它留一点遗憾