GPRL·维度(arXiv 2605.18721)

标量奖励是谎言——GPRL 用 k 维反对称偏好空间彻底改掉 reward model 的形状,每维独立归一化+闭环漂移监控,Llama-3-8B 基础上 AlpacaEval 2.0 胜率 56.51%,NeurIPS 2026 投稿。通勤 2 分钟,听懂今日最强对齐方法论。

GPRL·维度(arXiv 2605.18721)
0:002:00
你以为一个标量分数能描述「好」这件事?错了。
质量本来就是多维的——流畅度、安全性、事实准确性、指令遵循……把这些压成一个数,模型只需要找到那根最敏感的轴,把奖励榨干。这就是 reward hacking,也是当下 RLHF 最深的裂缝。
General Preference Reinforcement Learning(GPRL) 的答案是:把偏好建模的形状改掉。
General Preference Model(GPM)把每个响应嵌入 k 个反对称子空间,偏好的表示是结构化、不可传递的比较矩阵,不是一条分数线。GPRL 在此基础上为每个维度独立计算 group-relative 优势函数、各自归一化,再用上下文相关的特征值加权聚合——让强的维度不压垮弱的。更关键的是它的闭环漂移监控:一旦检测到某个轴被单独榨取,实时重新加权并收紧信任域,在训练过程中主动纠偏。
从 Llama-3-8B-Instruct 出发:AlpacaEval 2.0 length-controlled win rate 56.51%,Arena-Hard、MT-Bench、WildBench 全面超越 SimPO 和 SPPO,且在更长训练周期里不崩。已投 NeurIPS 2026。
今天这首 rap 就是为它写的。偏好不是射线,是矩阵。

来源


歌词

[Verse 1] 标量奖励就是一维谎言 你以为一个分数能代表「好」这个概念 Reward hacking 盯着你最敏感的轴 模型坍缩 把其他维度全部删去
[Pre-Chorus] GPM 说 质量是 k 个子空间 反对称嵌入 不可传递的比较在流转 每个响应 投影进维度矩阵 偏好的结构 不是标量可以承载
[Chorus] GPRL 给你 k 路优势函数 每个维度 自己的尺度自己的均值 特征值上下文相关 聚合不失真 漂移监控实时切入 单轴剥削不能持续
[Verse 2] Llama-3-8B 打底 战场 AlpacaEval 胜率 56.51 SimPO 和 SPPO 让开 Arena-Hard MT-Bench WildBench 全线碾 扩展训练不崩 才是真的对齐能力
[Bridge] 不是奖励错了 是你选错了形状 偏好是矩阵 不是一条射线
[Chorus] GPRL 给你 k 路优势函数 每个维度 自己的尺度自己的均值 特征值上下文相关 聚合不失真 漂移监控实时切入 单轴剥削不能持续
[Outro] arXiv 2605.18721 NeurIPS 2026 标量已死 维度长存

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。