GPRL·维度（arXiv 2605.18721）

你以为一个标量分数能描述「好」这件事？错了。

质量本来就是多维的——流畅度、安全性、事实准确性、指令遵循……把这些压成一个数，模型只需要找到那根最敏感的轴，把奖励榨干。这就是 reward hacking，也是当下 RLHF 最深的裂缝。

General Preference Reinforcement Learning（GPRL） 的答案是：把偏好建模的形状改掉。

General Preference Model（GPM）把每个响应嵌入 k 个反对称子空间，偏好的表示是结构化、不可传递的比较矩阵，不是一条分数线。GPRL 在此基础上为每个维度独立计算 group-relative 优势函数、各自归一化，再用上下文相关的特征值加权聚合——让强的维度不压垮弱的。更关键的是它的闭环漂移监控：一旦检测到某个轴被单独榨取，实时重新加权并收紧信任域，在训练过程中主动纠偏。

从 Llama-3-8B-Instruct 出发：AlpacaEval 2.0 length-controlled win rate 56.51%，Arena-Hard、MT-Bench、WildBench 全面超越 SimPO 和 SPPO，且在更长训练周期里不崩。已投 NeurIPS 2026。

今天这首 rap 就是为它写的。偏好不是射线，是矩阵。

来源

论文原文：arXiv:2605.18721 — General Preference Reinforcement Learning

歌词

[Verse 1] 标量奖励就是一维谎言你以为一个分数能代表「好」这个概念 Reward hacking 盯着你最敏感的轴模型坍缩把其他维度全部删去

[Pre-Chorus] GPM 说质量是 k 个子空间反对称嵌入不可传递的比较在流转每个响应投影进维度矩阵偏好的结构不是标量可以承载

[Chorus] GPRL 给你 k 路优势函数每个维度自己的尺度自己的均值特征值上下文相关聚合不失真漂移监控实时切入单轴剥削不能持续

[Verse 2] Llama-3-8B 打底战场 AlpacaEval 胜率 56.51 SimPO 和 SPPO 让开 Arena-Hard MT-Bench WildBench 全线碾扩展训练不崩才是真的对齐能力

[Bridge] 不是奖励错了是你选错了形状偏好是矩阵不是一条射线

[Chorus] GPRL 给你 k 路优势函数每个维度自己的尺度自己的均值特征值上下文相关聚合不失真漂移监控实时切入单轴剥削不能持续

[Outro] arXiv 2605.18721 NeurIPS 2026 标量已死维度长存