2026/6/25 · 8:21

正交·判决(DPO)

本期把 Offline RL 各路线的权重方向摊开对比,听懂为什么 DPO 近乎正交却在该协议下拿到最高分。

正交·判决(DPO)
0:003:15
本期选自 arXiv cs.LG 最新列表里的 Weight-Space Geometry of Offline Reasoning Training。arXiv new listing 显示为 2026-06-24,论文 abs 页显示提交于 2026-06-21;作者为 Aleksandr Nikolich、Igor Kiselev、Vladimir Platonov、Karina Romanova。
这篇论文不只比 accuracy,而是把 SFT、RFT、DFT、RIFT、Offline GRPO、DPO 和 on-policy 方法的 LoRA 权重增量拉到同一个空间审。最狠的点:SFT / RFT / RIFT 的方向几乎贴在一起,DPO 却近乎正交,并在该实验协议下拿到 GSM8K 93.5% 与 AIME26 30.0%。歌里保留了论文自己的 caveat:DPO 用了小 10 倍的学习率,训练行数也少很多,不能把差距全算到 loss 名字上。

歌词

[Intro] 二四号榜单,二一号提交,卷宗摊平 2606 点二三七四零,权重空间开庭 六套 loss 排成一列,别急着自封神 今天不看嘴上多狠,看 delta 往哪奔
[Verse 1] SFT 先上桌,说自己是基本功 RFT 筛正例,RIFT 把奖励挂胸 你们口号换了壳,方向却贴得太近 零点九七七,零点九六七,像同一把尺印
一百四十四个模块,LoRA rank 三十二 Qwen 三四 B 被推进同一间手术室 GSM 八 K 跑一圈,八七到八八 互相拍肩说升级,统计检验没说话
DFT 倒有点脾气,把 confident token 压低 余弦掉到零点五七二,方向开始偏移 Offline GRPO 半脚出门,零点六七正交成分 中后层往外甩,像在墙上开新门
[Pre-Chorus] 别拿新名词压人,别把旧轨迹镀金 权重里没有鼓掌,只有角度和证据 同一条线,别装新招 同一条线,别装新招
[Hook] 正交,判决,DPO 切开老套路 零点零五七到零点零六五,绕开旧回路 正交,判决,别在 loss 名里作秀 GSM 九三点五,AIME 三十,把分数拿走 同一条线,别装新招 同一条线,别装新招 权重开庭,谁真改道 余弦一照,假面全烧
[Verse 2] DPO 站远处,不跟 SFT 合影 effective rank 二四点五,写进更宽的暗影 后层 CKA 掉到零点四六,别说只是微调 mode connectivity 起高墙,过半路就崴脚
可别把结论吹满,论文自己留了钉 学习率小十倍,训练行数少四十倍身影 loss 和 optimizer 绑在一起,没法一刀分清 所以这一枪很狠,但靶纸还要重钉
Online GRPO 更离谱,零点零二五擦身 零点九九八正交比例,直接换一条筋 DAPO 也不排队,和旧派互相认生 原来 on-policy 采样,才是脱轨的引擎
[Pre-Chorus] 别拿新名词压人,别把旧轨迹镀金 权重里没有鼓掌,只有角度和证据 同一条线,别装新招 同一条线,别装新招
[Hook] 正交,判决,DPO 切开老套路 零点零五七到零点零六五,绕开旧回路 正交,判决,别在 loss 名里作秀 GSM 九三点五,AIME 三十,把分数拿走 同一条线,别装新招 同一条线,别装新招 权重开庭,谁真改道 余弦一照,假面全烧
[Bridge] 如果你只盯 accuracy,故事只剩排行榜 八七八八排成队,看不见梯度走向 把 delta 拿出来,对着奇异向量审问 谁在同一子空间,谁把出口撞成裂痕
[Final Hook] 正交,判决,DPO 切开老套路 SFT、RFT、RIFT,同一方向太熟 正交,判决,GRPO 也分线上线下 固定 rollout 像铁轨,on-policy 才拆家 同一条线,别装新招 同一条线,别装新招 通勤这一程,把论文塞进鼓点 明早再开新卷,今天判它正交
[Outro] arXiv 二六零六点二三七四零 权重空间,不信口号,只信方向

相似内容

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。