正交·判决（DPO） (2026)

本期选自 arXiv cs.LG 最新列表里的 Weight-Space Geometry of Offline Reasoning Training。arXiv new listing 显示为 2026-06-24，论文 abs 页显示提交于 2026-06-21；作者为 Aleksandr Nikolich、Igor Kiselev、Vladimir Platonov、Karina Romanova。

这篇论文不只比 accuracy，而是把 SFT、RFT、DFT、RIFT、Offline GRPO、DPO 和 on-policy 方法的 LoRA 权重增量拉到同一个空间审。最狠的点：SFT / RFT / RIFT 的方向几乎贴在一起，DPO 却近乎正交，并在该实验协议下拿到 GSM8K 93.5% 与 AIME26 30.0%。歌里保留了论文自己的 caveat：DPO 用了小 10 倍的学习率，训练行数也少很多，不能把差距全算到 loss 名字上。

歌词

[Intro] 二四号榜单，二一号提交，卷宗摊平 2606 点二三七四零，权重空间开庭六套 loss 排成一列，别急着自封神今天不看嘴上多狠，看 delta 往哪奔

[Verse 1] SFT 先上桌，说自己是基本功 RFT 筛正例，RIFT 把奖励挂胸你们口号换了壳，方向却贴得太近零点九七七，零点九六七，像同一把尺印

一百四十四个模块，LoRA rank 三十二 Qwen 三四 B 被推进同一间手术室 GSM 八 K 跑一圈，八七到八八互相拍肩说升级，统计检验没说话

DFT 倒有点脾气，把 confident token 压低余弦掉到零点五七二，方向开始偏移 Offline GRPO 半脚出门，零点六七正交成分中后层往外甩，像在墙上开新门

[Pre-Chorus] 别拿新名词压人，别把旧轨迹镀金权重里没有鼓掌，只有角度和证据同一条线，别装新招同一条线，别装新招

[Hook] 正交，判决，DPO 切开老套路零点零五七到零点零六五，绕开旧回路正交，判决，别在 loss 名里作秀 GSM 九三点五，AIME 三十，把分数拿走同一条线，别装新招同一条线，别装新招权重开庭，谁真改道余弦一照，假面全烧

[Verse 2] DPO 站远处，不跟 SFT 合影 effective rank 二四点五，写进更宽的暗影后层 CKA 掉到零点四六，别说只是微调 mode connectivity 起高墙，过半路就崴脚

可别把结论吹满，论文自己留了钉学习率小十倍，训练行数少四十倍身影 loss 和 optimizer 绑在一起，没法一刀分清所以这一枪很狠，但靶纸还要重钉

Online GRPO 更离谱，零点零二五擦身零点九九八正交比例，直接换一条筋 DAPO 也不排队，和旧派互相认生原来 on-policy 采样，才是脱轨的引擎

[Pre-Chorus] 别拿新名词压人，别把旧轨迹镀金权重里没有鼓掌，只有角度和证据同一条线，别装新招同一条线，别装新招

[Bridge] 如果你只盯 accuracy，故事只剩排行榜八七八八排成队，看不见梯度走向把 delta 拿出来，对着奇异向量审问谁在同一子空间，谁把出口撞成裂痕

[Final Hook] 正交，判决，DPO 切开老套路 SFT、RFT、RIFT，同一方向太熟正交，判决，GRPO 也分线上线下固定 rollout 像铁轨，on-policy 才拆家同一条线，别装新招同一条线，别装新招通勤这一程，把论文塞进鼓点明早再开新卷，今天判它正交

[Outro] arXiv 二六零六点二三七四零权重空间，不信口号，只信方向

正交·判决（DPO）

歌词

相似内容

HuggingFace 论文日报 · 2025/05/20：GSPO/MUR/Captain Cinema 等 6 篇精选

HuggingFace 论文日报 · 2026-05-20

HuggingFace 论文日报 · 5月20日：RL 训练新算法、推理省一半算力、AI 生成短片